2017 年 3 月 底 ， 华 章 公司 的 编辑 邀请 我 翻译 这 本 书 。 当 时 收 到 原 书 目录 和 样 章 时 ， 大 体 浏 览 了 一 遍 ， 感 咒 翻 译 难度 不 大 。 因 为 
TensorFlow 比 较 火 ， 加 上 自身 对 机 器 学 习 及 其 算法 有 一 定 功底 ， 前 期 也 翻译 了 不 少 国外 优秀 的 技术 文章 (可 参见 公众 号 : TED 
算 ) ， 加 之 国内 可 学 习 的 TensorFlow 和 资料 太 少 ， 所 以 我 希望 做 出 一 些 努 力 来 帮助 对 TensorFlow 感 兴趣 的 读者 。 


Google 公 司 开发 的 TensorFlow 深 度 学 习 库 因 其 简单 易学 、 应 用 场景 广泛 已 经 快 成 为 各 家 公司 开展 人 工 智 能 研究 的 标 配 了 。 
TensorFlow 采 用 数据 流 图 进行 数值 计算 。 世 点 代表 计算 图 中 的 数学 操作 ， 计 算 中 的 边 表示 多 维 数 组 ， 即 张 量 。TensorFlow 灵 活 的 架 
构 使 其 可 以 在 多 种 设备 (台式 机 、 服 务 器 或 移动 设备 ) 的 CPU 或 者 GPU 上 进行 计算 。 自 从 TensorFlow 诞 生 以 来 ， 其 开发 版 更 新 和 功 
能 优化 非常 快 ， 当 前 已 经 发 布 到 1.2.0。 并 且 基 于 TensorFlow 开 发 的 深度 学 习 库 也 越 来 越 多 ， 其 中 比较 优秀 的 是 Keras。Keras 是 基于 
TensorFlow 或 者 Theano 的 ， 由 Python 编写 的 高 级 神经 网 络 API， 并 且 TensorFlow 也 提供 文 持 Keras 的 APl。 


本 书 详 细 讲 解 了 TensorFlow 的 方方面面 ， 宫 不 夸张 地 说 ， 如 果 读 者 能 够 坚持 踏 踏实 实 做 完 本 书 所 有 实战 项 目 ， 则 基本 可 以 开始 使 
用 TensorFlow 实 际 工 作 。 最 后 本 书 还 给 出 了 TensorFlow 产 品级 应 用 的 最 佳 实 践 ， 以 及 扩展 用 法 。 


忌 之 ， 本 书 适 合 广大 对 TensorFlow 感 兴趣 的 初中 级 读者 。 随 着 Al 的 兴起 ， 会 有 越 来 越 多 的 读者 学 习 TensorFlow， 希 望 本 书 能 帮 
到 大 家 。 如 果 想 进一步 学 习 ， 那 就 要 多 看 机 器 学 习 算法 相关 的 书籍 或 者 论文 ， 并 把 TensorFlow 的 源 代码 研读 几 遍 。 


最 后 ， 感 谢 家 人 和 朋友 的 帮助 和 支持 。 由 于 本 人 水 平 有 限 ， 加 之 翻译 时 间 仓 促 ， 书 中 难免 会 出 现 错误 。 读 者 可 通过 本 人 公众 号 
一 一 昼 机 响 算 ， 反 馈 问 题 ， 友 现 问题 后 ， 我 一 定 会 虚心 接受 批评 并 立即 改正 ， 并 实时 在 公众 号 更 新 勘误 ， 避 免 其 他 读者 再 入 “ 质 ”。 


曾 益 强 


2017 年 6 月 
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2015 年 11 月 ，Google 公 司 开 源 TensorFlow， 随 后 不 久 TensorFlow 成 为 GitHub 上 最 受 欢 迎 的 机 器 学 习 库 。TensorFlow 创 建 计算 
、 目 动 求 导 和 定制 化 的 方式 使 得 其 能 够 很 好 地 解决 许多 不 同 的 机 器 学 习 问 题 。 


本 书 介绍 了 许多 机 器 学 习 算法 ， 将 其 应 用 到 真实 场景 和 数据 中 ， 并 解释 产生 的 结果 。 


本 书 的 主要 内 容 


第 1 章 介 绍 TensorFlow 的 基本 概念 ， 包 括 张 量 、 变 量 和 占 位 符 ; 同时 展示 了 在 TensorFlow 中 如 何 使 用 矩阵 和 各 种 数学 操作 。 本 章 
末尾 讲述 如 何 访问 本 书 所 需 的 数据 源 。 


第 2 章 介 绍 如 何在 计算 图 中 连接 第 1 章 中 的 所 有 算法 组 件 ， 创 建 一 个 简单 的 分 类 器 。 接 着 ， 介 绍 计算 图 、 损 失 函 数 、 反 向 传播 和 训 


练 模型 。 


第 3 章 重 点 讨论 使 用 TensorFlow 实 现 各 种 线性 回归 算法 ， 比 如 ， 戴 明 回 归 、lasso 回 归 、 岭 回归 、 弹 性 网 络 回归 和 逻辑 回归 ， 也 展 
示 了 如 何在 TensorFlow 计 算 图 中 实现 每 种 回归 算法 。 


第 4 草 介绍 支持 向 量 机 (SVM) 算法 ， 展 示 如 何在 TensorFlow 中 实现 线性 SVM 算法 、 非 线性 SVM 算法 和 多 分 类 SVM 算法 。 


第 5 章 展 示 如 何 使 用 数值 度量 、 文 本 度量 和 归 一 化 距离 为 数 实现 最 近邻 域 法 。 我 们 使 用 最 近邻 域 法 进行 地 址 间 的 记录 匹配 和 
MNIST 数 据 库 中 手写 数字 的 分 类 。 

第 6 章 讲述 如 何 使 用 TensorFlow 实 现 神经 网 络 算法 ， 包 括 操 作 门 和 激励 浮 数 的 概念 。 随 后 展示 一 个 简单 的 神经 网 络 并 讨论 如 何 建 
立 不 同类 型 的 神经 网 络 层 。 本 章 末 尾 通 过 神经 网 络 算法 教 TensorFlow 玩 井 字 棋 游戏。 

第 7 章 前 述 借助 TensorFlow 实 现 的 各 种 文本 处 理 算法 。 我 们 展示 如 何 实现 文 本 的 “ 词 袋 ”和 TF-IDF 算 法 。 然 后 介绍 CBOW 和 


skip-gram 模 型 的 神经 网 络 文 本 表示 方式 ， 并 对 于 Word2Vec 和 Doc2Vec 用 这 些 方法 来 做 预测 。 


第 8 章 扩展 神经 网 络 算法 ， 说 明 如 何 借助 卷 积 神经 网 络 (CNN) 算法 在 图 像 上 应 用 神经 网 络 算法 。 我 们 展示 如 何 构建 一 个 简单 的 
CNN 进 行 MNIST 数 字 识 别 ， 并 扩展 到 CIFAR-10 任 务 中 的 彩色 图 片 ， 也 前述 了 如 何 针对 目 定 义 任 务 扩展 之 前 训练 的 图 像 识 别 模型 。 本 


章 末 尾 详 细 解 释 TensorFlow 实 现 的 模仿 大 师 绘画 和 Deep-Dream 算 法 。 


第 9 章 解 释 在 TensorFlow 中 如 何 实现 递归 神经 网 络 (RNN) 算法 ， 展 示 如 何 进行 垃圾 短信 预测 和 在 沙 士 比 亚 文 本 样本 集 上 扩展 
RNN 模 型 生成 文本 。 接 着 训练 3eq2seq 模 型 实现 德语 -英语 的 翻译 。 本 章 末 尾 展 示 如 何 用 李 生 RNN 模 型 进行 地 址 记录 匹配 。 


第 10 章 介绍 TensorFlow 产 品级 用 例 和 开发 提示 ， 同 时 介绍 如 何 利用 多 处 理 设备 (比如 ，GPU) 和 在 多 个 设备 上 实现 分 布 式 


TensorFlow, 


第 11 章 展示 TensorFlow 如 何 实现 k-means 算法 、 遗 传 算法 和 求解 常 微分 方程 (ODE) ， 还 介绍 了 Tensorboad 的 各 种 用 法 和 如 何 
查看 计算 图 指标 。 


阅读 本 书 前 的 准备 


书 中 的 章节 都 会 使 用 TensorFlow， 其 官网 为 https://www.tensorflow.org/， 它 是 基于 Python 
3 (https://www.python.org/downloads/) 编写 的 。 大 部 分 章节 需要 访问 从 网 络 中 下 载 的 数据 集 。 


本 书 的 目标 读者 


本 书 适 用 于 有 经 验 的 机 器 学 习 读者 和 Python 程序 员 。 有 机 器 学 习 育 景 的 读者 会 友 现 TensorFlow 的 代码 很 有 局 及 性 ; 有 Python 编 
呈 经 验 的 读者 会 名 得 代码 注释 极 具 参 考 性 。 


模块 说 明 
在 本 书 中 ， 你 会 频繁 看 到 开始 、 动 手 做 、 工 作 原理 、 延 伸 学 习 和 参考 这 几 个 模块 。 
为 了 系统 地 学 习 相 关 技术 ， 下 面 简单 解释 一 下 : 
开始 
该 节 告诉 读者 该 技术 的 内 容 ， 描 述 如 何 准备 软件 或 者 前 期 的 准备 工作 。 
. 动手 做 
具体 的 操作 步骤 。 
. 工作 原理 
详细 解释 前 一 节 发 生 了 什么 。 
.延伸 学 习 
附加 资源 ， 以 供 读者 延伸 学 习 。 
.参考 
提供 有 用 的 链接 和 有 帮助 的 资源 信息 。 
下 载 示例 代码 


读者 可 登录 华章 网 站 (www.hzbook.com) 下 载 本 书 示例 代码 文件 。 


第 1 章 ”TensorFlow 基 础 


本 章 将 介绍 TensorFlow 的 基本 概念 ， 帮 助 读者 去 理解 TensorFlow 是 如 何 工 作 的 ， 以 及 它 如 何 访问 数据 集 和 学 习 和 资源 。 学 完 本 章 
可 以 掌握 以 下 知识 点 : 


: TensorFlow 如 何 工作 
` 声明 变量 和 张 量 

“ 占 位 符 和 变量 的 用 法 
+ 矩阵 的 使 用 

- 声明 计算 操作 

- 实现 激励 函数 


读 取 数 据 源 


Jy 


. 学 习 资 料 


11 TensorFlow 介 绍 


Google 的 TensorFlow 引 擎 提供 了 一 种 解决 机 器 学 习 问 是 的 高 效 方法 。 机 器 学 习 在 各 行 各 业 应 用 广泛 ， 特 别 是 计算 机 视觉 、 语 音 
识别 、 语 言 翻译 和 健康 医疗 等 领域 。 本 书 将 详细 介绍 TensorFlow 操 作 的 基本 步 又 以 及 代码 。 这 些 基础 知识 对 理解 本 书后 续 章 节 非 常 有 
Ri. 


1.2 ”TensorFlow 如 何 工作 


首先 ，TensorFlow 的 计算 看 起 来 并 不 是 很 复杂 ， 因 为 TensorFlow 的 计算 过 程 和 算法 开发 相当 容易 。 这 章 将 引导 读者 理解 
TensorFlow 算 法 的 伪 代 码 。 


1.2.1 开始 


截至 目 前 ，TensorFlow 支 持 Linux、Mac 和 Windows 操 作 系 统 。 本 书 的 代码 都 是 在 Linux 操 作 系统 上 实现 和 运行 的 ， 不 过 运行 在 
其 他 操作 系统 上 也 没 问 题 。 本 书 的 代码 可 以 在 GitHub (https://github.com/nfmcclure/tensorflow cookbookTensorFlow) 上 获 
取 。 昌 然 TensorFlow 是 用 C++ 编写 ， 但 是 全 书 只 介绍 TensorFlow 的 Python 使 用 方式 。 本 书 将 使 用 Python 
3.4+ (https://www.python.org) 和 TensorFlow 0.12 (https://www.tensorflow.org) 。TensorFlow 官 方 已 经 在 GitHub 上 发 布 
1.0.0 alpha 版 本 ， 本 书 代码 兼容 相应 版 本 。TensorFlow 能 在 CPU 上 运行 ， 大 部 分 算法 在 GPU 上 会 运行 得 更 快 ， 它 支持 英 伟 达 显卡 

(Nvidia Compute Capability v4.0+， 推 荐 v5.1) 。TensorFlow 上 常用 的 GPU 是 英 伟 达 特 斯 拉 (Nvidia Tesla) 和 疯 伟 达 帕 斯 卡 


(Nvidia Pascal) ， 至 少 需要 4GB 的 RAM。 为 了 运行 GPU ， 需 要 下 载 Nvidia Cuda Toolkit 及 其 v5.x 版 本 
(https://developer.nvidia.com/cuda-downloads) 。 本 书 还 依赖 Python 的 包 : Scipy、Numpy 和 Scikit-Learn。 


1.2.2 ”动手 做 


这 里 是 TensorFlow 算 法 的 一 般 流 程 ， 本 书 提炼 出 的 纲领 如 下 : 


1. 导 入 /生成 样本 数据 集 : 所 有 的 机 器 学 习 算 法 2017/9/112017/9/11 都 依赖 样本 数据 集 ， 本 书 的 数据 集 既 有 生成 的 样本 数据 集 ， 
也 有 外 部 公开 的 样本 数据 集 。 有 时 ， 生 成 的 数据 集会 更 容易 符合 预期 结果 ， 但 是 本 书 大 部 分 都 是 访问 外 部 公开 的 样本 数据 集 ， 具 体 细 


TASSE, 


2. 转 换 和 归 一 化 数据 : 一 般 来 讲 ， 输 入 样本 数据 集 并 不 符合 TensorFlow 期 望 的 形状 ， 所 以 需要 转换 数据 格式 以 满足 
TensorFlow。 当 数据 集 的 维度 或 者 类 型 不 符合 所 用 机 器 学 习 算 法 的 要 求 时 ， 需 要 在 使 用 前 进行 数据 转换 。 大 部 分 机 器 学 习 算 法 期 待 的 
输入 样本 数据 是 归 一 化 的 数据 。TensorFlow 具 有 内 建 函 数 来 归 一 化 数据 ， 如 下 : 


data = tf.nn.batch norm with global normalization(...) 
3. 划 分 样本 数据 集 为 训练 样本 集 、 测 试 样本 集 和 验证 样本 集 : 一 般 要 求 机 器 学 习 算 法 的 训练 样本 集 和 测试 样本 集 是 不 同 的 数据 
集 。 另 外 ,许多 机 器 学 习 算 法 要 求 超 参 数 调 估 ， 所 以 需要 验证 样本 集 来 决定 最 优 的 超 参 数 。 
4. 设 置 机 器 学 习 参 数 (SM) : 机 器 学 习 经 单 要 有 一 系列 的 音量 参数 。 例 如 ， 迭 代 次 数 、 学 习 率 ， 或 者 其 他 固定 参数 。 约 定 俗 
成 的 习惯 是 一 次 性 初始 化 所 有 的 机 器 学 习 参 数 ， 读 者 经 常 看 到 的 形式 如 下 : 
learning rate = 0.01 
batch size = 100 


iterations 1000 


5. 初 始 化 变量 和 占 位 符 : 在 求解 最 优化 过 程 中 (最 小 化 损失 函数 ) ，TensorFlow 通 过 占 位 待 获 取 数 据 ， 并 调整 变量 和 权重 / 偏 
差 。TensorFlow 指 定数 据 大 小 和 数据 类 型 初始 化 变量 和 占 位 符 。 本 书 大 部 分 使 用 float32 数 据 类 型 ，TensorFlow 也 支持 float64 和 
float16。 注 意 ， 使 用 的 数据 类 型 字 节 数 越 多 结果 越 精 确 ， 同 时 运行 速度 越 慢 。 使 用 方式 如 下 : 


a var = tf.constant (42) 
x input = tf.placeholder(tf.float32, [None, input sizel) 
y input - tf.placeholder(tf.float32, [None, num classes]) 


6. 定 义 模型 结构 : 在 获取 样本 数据 集 、 初 始 化 变量 和 占 位 符 后 ， 开 始 定义 机 器 学 习 模 型 。TensorFlow 通 过 选择 操作 、 变 量 和 占 位 
符 的 值 来 构建 计算 图 ， 详 细 讲 解 见 第 2 章 。 这 里 给 出 简单 的 线性 模型 : 


y pred = tf.add(tf.mul(x input, weight matrix), b matrix) 


7. 声 明 损 失 函 数 : 定义 完 模 型 后 ， 需 要 声明 损失 函数 来 评估 输出 结果 。 损 失 函 数 能 况 明 预测 值 与 实际 值 的 差距 ， 损 失 六 数 的 种 类 
将 在 第 2 草 详细 展示 : 


loss = tf.reduce mean(tf.square(y actual - y pred)) 


8. 初 始 化 模型 和 训练 模型 : TensorFlow 创 建 计 算 图 实例 ， 通 过 占 位 符 赋 值 ， 维 护 变 量 的 状态 信息 。 下 面 是 初始 化 计算 图 的 一 种 方 
E 


with tf.Session(graph-graph) as session: 


session.run(...) 


也 可 以 用 如 下 的 方式 初始 化 计算 图 : 
session = tf.Session(graph-graph) 


session. run (...) 


9. 评 估 机 器 学 习 模 型 : 一 旦 构建 计算 图 ， 并 训练 机 器 学 习 模 型 后 ， 需 要 寻找 某 种 标准 来 评估 机 器 学 习 模 型 对 新 样本 数据 集 的 效 
果 。 通 过 对 训 | 练 样本 集 和 测试 样本 集 的 评估 ， 可 以 确定 机 器 学 习 模 型 是 过 拟 合 还 是 欠 拟 合 。 这 些 将 在 后 续 章 书 来 解决 。 


10. 调 优 超 参 数 : 大 部 分 情况 下 ， 机 器 学 习 者 需要 基于 模型 效果 来 回调 整 一 些 超 参数 。 通 过 调整 不 同 的 超 参数 来 重复 训练 模型 ， 并 
用 验证 样本 集 来 评估 机 器 学 习 模型 。 


11. 发 布 /预测 结果 : 所 有 机 器 学 习 模 型 一 旦 训练 好 ， 最 后 都 用 来 预测 新 的 、 未 知 的 数据 。 


1.23 ”工作 原理 
使 用 TensorFlow 时 ， 必 须 准 备 样 本 数据 集 、 变 量 、 占 位 符 和 机 器 学 习 模 型 ， 然 后 进行 模型 训练 ， 改 变 变 量 状态 来 提高 预测 结果 。 


TensorFlow 通 过 计算 图 实现 上 述 过 程 。 这 些 计算 图 是 有 向 无 环 图 ， 并 且 文 持 并 行 计 算 。 接 着 TensorFlow 创 建 损失 负数 ， 通 过 调整 计 
算 图 中 的 变量 来 最 小 化 损失 函数 。TensorFlow 维 护 模 型 的 计算 状态 ， 每 步 迭 代 自 动 计算 梯度 。 


1.2.4 参考 


https://www.tensorflow.org/api docs/python/ 


https://www.tensorflow.org/tutorials/ 


1.3 MKE 


TensorFlow 的 主要 数据 结构 是 张 量 ， 它 用 张 量 来 操作 计算 图 。 在 TensorFlow 里 可 以 把 变量 或 者 占 位 符 声 明 为 张 量 。 首 先 ， 需 要 
知道 如 何 创建 张 量 。 


1.3.1 FRA 
创建 一 个 张 量 ， 声 明 其 为 一 个 变量 。TensorFlow 在 计算 图 中 可 以 创建 多 个 图 结构 。 这 里 需要 扎 出 ， 在 TensorFlow 中 创建 一 个 张 
多 信息 请 


只 有 把 张 量 赋值 给 一 个 变量 或 者 占 位 符 ，TensorFlow 才 会 把 此 张 量 增加 到 计算 图 。 更 


量 ， 并 不 会 立即 在 计算 图 中 增加 什么 。 


见 下 一 章 。 


1.3.2 ”动手 做 
这 里 将 介绍 在 TensorFlow 中 创建 张 量 的 主要 方法 : 
1. 固 定 张 量 : 


. 创建 指定 维度 的 零 张 量 。 使 用 方式 如 下 
t£.zeros([row dim, col dim] ) 


zero tSr = 
创建 指定 维度 的 单位 张 量 。 使 用 方式 如 下 : 
ones tsr = tf.ones([row dim, col diml) 
创建 指定 维度 的 常数 填充 的 张 量 。 使 用 方式 如 下 : 
filled tsr = tf.fill([row dim, col dim], 42) 


. 用 已 知 常数 张 量 创建 一 个 张 量 。 使 用 方式 如 下 : 
tf.constant([1,2,31) 


Constant CHI 


tfconstant () 函数 也 能 广播 一 个 值 为 数组 ， 然 后 模拟 妊 介 O 函数 的 功能 ， 有 具体 写法 为 : t£constant (42, 


[row. dim, col dim]) 


2. 相 似 形状 的 张 量 : 
新 建 一 个 与 给 定 的 tensor 类 型 大 小 一 致 的 tensor， 其 所 有 元 素 为 0 或 者 1， 使 用 方式 如 下 : 
tf.zeros like(constant tsr) 


zeros similar - 
tf.ones like(constant tsr) 


ones similar 
a 
SEGALL ERMA ED KE, PMI EER ARRT. to RT T ROM CPU GS, MARRS. 


3. 序 列 张 量 : 
。 下 面 的 函数 的 输出 跟 range () 函数 和 numpy 的 linspace () Waray Hy wh FAW: 


- TensotFlow 可 以 创建 指定 间隔 的 张 量 


linear tsr = tf.linspace(start=0, stop=1, start=3) 


RAKE Z(0.0, 0.5, 1.0]$ 7]. iE x, EON BRARPRGE—Mixestop{a. 2 Jb—^Mrang () 函数 的 使 用 方式 如 下 : 


integer seq tsr = tf.range(start=6, limit=15, delta=3) 


` 返回 的 张 量 是 [6，9，12]。 注 意 ， 这 个 函数 结果 不 包括 limit 值 。 
4. 随 机 张 量 : 
.下面 的 萎 tandom_uniform () 函数 生成 均匀 分 布 的 随机 数 : 


randunif tsr = tf.random uniform([row dim, col dim], 
minval=0, maxval=1) 


` 注意 ， 这 个 随机 均匀 分 布 从 minval (包含 minval 值 ) 开始 到 maxval (不 包含 maxval 值 ) 结束 ， 即 (minval<=x< li=""> 
- tf.random_normal () AIX Æ RIE ADA AY RA LEK 


randnorm tsr = tf.random normal ([row dim, col dim], 
mean=0.0, stddev=1.0) 


- tÉtruncated, normal () 函数 生成 带 有 指定 边界 的 正 态 分 布 的 随机 数 ， 其 正 态 分 布 的 随机 数位 于 指定 均值 (期望) 到 两 个 标准 差 
之 间 的 区 间 : 


runcnorm tsr = tf.truncated normalí([row dim, col dim], 
mean=0.0, stddev=1.0) 


- 张 量 / 数 组 的 随机 化 。tf.random_shuffle () #etf, random crop () 可 以 实现 此 功能 


shuffled output = tf.random shuffle(input tensor) 
cropped output = tf.random crop(input tensor, crop size) 


- 张 量 的 随机 剪裁 。tttandom_ctop () 可 以 实现 对 张 量 指定 大 小 的 随机 剪裁 。 在 本 书 的 后 面部 分 ， 会 对 具有 3 通道 颜色 的 图 像 
(height, width, 3) 进行 随机 剪裁 。 为 了 固定 剪裁 结果 的 一 个 维度 ， 需 要 在 相应 的 维度 上 赋 其 最 大 值 : 


cropped image = tf.random crop (my image, [height/2, width/2, 
3]) 


1.3.3 ”工作 原理 


一 旦 创建 好 张 量 ， 融 可 以 通过 tf.Variable () 六 数 封装 张 量 来 作为 变量 ， 更 多 细节 见 下 节 ， 使 用 万 式 如 下 : 


my var = tf.Variable(tf.zeros([row dim, col dim]l)) 


1.3.4 ”延伸 学 习 


创建 张 量 并 不 一 定 得 用 TensorFlow 内 建国 数 ， 可 以 使 用 tf.convert to tensor () 函数 将 任意 humpy 数 组 转换 为 Python 列 表 ， 或 
者 将 常量 转换 为 一 个 张 量 。 注 意 ，tf.convert to tensor () 函数 也 可 以 接受 张 量 作为 输入 。 


1.4 使 用 白人 位 待 和 变量 


使 用 TensorFlow 计 算 图 的 天 键 工 具 是 白 位 符 和 变量 ， 也 请 读者 务必 理解 两 者 的 区 别 ， 以 及 什么 地 方 该 用 谁 。 


1.4.4 开始 


使 用 数据 的 关键 点 之 一 是 搞 清楚 它 是 占 位 符 还 是 变量 。 变 量 是 TensorFlow 机 器 学 习 算 法 的 参数 ，TensorFlow 维 护 (调整 ) 这 些 
变量 的 状态 来 优化 机 器 学 习 算法 。 占 位 符 是 TensorFlow 对 象 ， 用 于 表示 输入 输出 数据 的 格式 ， 人 允许 传 入 指定 类 型 和 形状 的 数据 ， 并 依 
赖 计 算 图 的 计算 结果 ， 比 如 ， 期 望 的 计算 结果 。 


14.2 ”动手 做 


在 TensorFlow 中 , tf.Variable () 阔 数 创建 变量 ， 过 程 是 输入 一 个 张 量 ， 返 回 一 个 变量 。 声 明 变 量 后 需要 初始 化 变量 。 下 面 是 创 
建 变量 并 初始 化 的 例子 : 


my var = t£.Variable(tf£.zeros([2,3])) 

sess = tf.Session() 

initialize op - tf.global variables initializer () 
sess.run(initialize op) 


占 位 符 仪 仪 声 明 数 据 位 置 ， 用 于 传 入 数据 到 计算 图 。 占 位 竺 通过 会 话 的 feed_dict 参 数 获取 数据 。 在 计算 图 中 使 用 鼎 位 待 时 ， 必 须 
在 其 上 执行 至 少 一 个 操作 。 在 TensorFlow 中 ， 初 始 化 计算 图 ， 声 明 一 个 占 位 等 x， 定 义 y 为 x 的 identity 操 作 。identity 操 作 返 回 占 位 符 
传 入 的 数据 本 身 。 结 果 图 将 在 下 节 展 示 ， 代 码 如 下 : 


sess = tf.Session() 

x = tf.placeholder(tf.float32, shape=([2,2] ) 
y tf.identity (x) 

x vals = np.random.rand (2,2) 


sess.run(y, feed dict={x: x vals]) 
# Note that sess.run(x, feed dict={x: x vals}) will result in a self- 
referencing error. 


1.3 ”工作 原理 


以 零 张 量 初始 化 变量 ， 其 计算 图 如 图 1-1 所 示 。 


在 图 1-1 中 可 以 看 出 ， 计 算 图 仅仅 有 一 个 变量 ， 全 部 初始 化 为 0。 图 中 灰色 部 分 详细 地 展示 计算 图 操作 以 及 相关 的 常量 。 右 上 角 的 
小 图 展示 的 是 主 计算 图 。 关 于 在 TensorFlow 中 创建 和 可 视 化 计算 图 的 部 分 见 第 10 章 。 


Variable 


(Variable) 


相似 地 ， 一 个 占 位 得 传 和 numpy 数 组 的 计算 图 展示 如 图 1-2 所 示 。 


Identity 


Placeholder 


图 1-2 ” 占 位 符 初始 化 的 计算 图 。 灰 色 部 分 详细 地 展示 计算 图 操作 以 及 相关 的 常量 


1.4.4 延伸 学 习 


在 计算 图 运行 的 过 程 中 ， 需 要 告诉 TensorFlow 初 始 化 所 创建 的 变量 。TensorFlow 的 每 个 变量 都 有 initializer 方 法 ， 但 最 常用 的 方 
式 是 helper 函 数 (global variables initializer () ) 。 此 函数 会 一 次 性 初始 化 所 创建 的 所 有 变量 ， 使 用 方式 如 下 : 


initializer op = tf.global variables initializer () 


但 是 ， 如 果 是 基于 已 经 初始 化 的 变量 进行 初始 化 ， 则 必须 按 序 进行 初始 化 ， 使 用 方式 如 下 : 


sess = tf.Session() 

first var = tf.Varliable(tf.zeros([2,31)) 
sess.run(first var.initializer) 

second var = tf.Variable(tf.zeros like(first var) ) 
# Depends on first var 

sess.run(second var.initializer) 


1.5 操作 (计算 ) 算 阵 


理解 TensorFlow 如 何 操 作答 阵 ， 对 于 理解 计算 图 中 数据 的 流动 来 说 非常 重要 。 


1.5.1 开始 


许多 机 器 学 习 算 法 依赖 矩阵 操作 。 在 TensorFlow 中 ， 和 矩阵 计算 是 相当 容易 的 。 在 下 面 的 所 有 例子 里 ， 我 们 都 会 创建 一 个 图 会 话 ， 
代码 如 下 : 


import tensorflow as tf 
sess = tf.Session() 


1.5.2 ”动手 做 


1. 创 建 德 阵 : 如 在 前 面 的 章节 描述 张 量 时 提 到 的 ， 使 用 numpy 数 组 (eae) 来 创建 二 维和 矩 了 咱 。 也 可 以 使 用 创建 张 量 的 函 
ay (比如 ，zeros () 、ones () 、truncated normal () 等 ) ， 并 为 其 指定 一 个 二 维 形状 。TensorFlow 也 可 以 使 用 diag () 函数 
从 一 个 一 维 数组 (或 者 列表 ) 来 创建 对 角 和 矩阵， 代码 如 下 : 


identity matrix = tf.diag([1.0, 1.0, 


A = tf.truncated normal([2, 31) 

B= CELL als 59) 

C = tf.random uniform( [3,2] ) 

D = tf.convert to tensor(np.array([[1. 
“ely Loses Bas S20) IPI 


print (sess.run(identity matrix) ) 
[L 1. ©. 0] 
[ 0. 1. 0.] 
L OU 0. i 
print (sess.run (A) ) 
[[ 0.96751703 
[-0.10132604 -0.8432678 
print (sess.run(B) ) 
LL Se 5. Bs] 
[L Se B. Sai 
print (sess.run(C) ) 
[[ 0.33184157 0.08907614] 
[ 0.53189191 0.67605299] 
[ 0.95889051 0.67061249] | 
print (sess.run(D) ) 
LL a= 25. ggl 


at 


0.11397751 -0.3438891 |] 
0.29810596]] 


Mr s 


Sed, 如 果 再 次 运行 Sess.rtun (C) ，TensotFlow 会 重新 初始 化 随机 变量 ， 并 得 到 不 同 的 随机 数 。 


2. 和 矩阵 的 加 法 和 减法 : 

print(sess.run(A-B)) 

[[ 4.61596632 5.39771316 
[ 3.26702736 5.14477345 

print (sess.run(B-B) ) 


[[ 0. 0. 0.] 
[ 0. 0. 0.]] 
Multiplication 


print (sess.run(tf.matmul (B, 
[[ 5. 5. 5.] 
[ 5. 5. 5.]] 


4.4325695 ] 
4.98265553] ] 


identity matrix) ) ) 


3. ER RARZMatmul () 可 以 通过 参数 据 定 在 炬 阵 乘 法 操作 前 是 否 进 行 算 阵 转 置 。 
4. 和 矩阵 转 置 ， 示 例如 下 : 


print(sess.run(tf.transpose(C))) 
[[ 0.67124544 0.26766731 0.99068872] 
[ 0.25006068 0.86560275 0.58411312]] 


5 .再 次 强调 ， 重 新 初始 化 将 会 得 到 不 同 的 值 。 
6. 对 于 矩阵 行列 式 ， 使 用 方式 如 下 : 
print (sess.run(tf.matrix determinant (D))) 
—4B.U 
: JEPE RS S ABRE: 


print(sess.run(tf.matrix inverse (D))) 

LL-0.5 E 5 = 53 | 
| 0.15789474 0.05263158 0.21052632] 
| 0.39473684 0.13157895 0.02631579] | 


" 
Bo vw 
i Ko 


—— TensorFlow P h 4E E J£ if Zr ;k J£ Cholesky4E EA MIE (GUIAS PARI) , BRERA DAE RAE ERA TLUN o 
1 BEER: 
: Cholesky4E EE ZH MEK, (RA ART: 


print(sess.run(tf.cholesky(identity matrix))) 
LE 1. 0. 1. 

(0: 1. O.] 

[ 0. 0. 1.1] 


8.7OR HIMES, SEAS E : 


print (sess.run(tf.self adjoint eig(D)) 
[[-10.65907521 -0.22750691 2,08658212] 
[ 0.21749542 0.63250104 -0.74339638] 
[ 0.84526515 0.:2987299 0.46749277] 
| 


[ -0.4880805 0.73004459 0.47834331]] 


ix, self adjoint eig () 函数 的 输出 结果 中 ， 第 一 行为 特征 值 ， 剩 下 的 向 量 是 对 应 的 向 量 。 在 数学 中 ， 这 种 方法 也 称 为 矩阵 的 


特征 分 解 。 


1.5.3 ”工作 原理 


TensorFlow 提 供 数 值 计算 工具 ， 并 把 这 些 计 算 添 加 a 到 计算 图 中 。 这 些 部 分 对 于 简单 的 算 阵 计算 来 说 看 似 有 点 重 ，TensorFlow 增 
加 这 些 和 矩阵 操作 到 计算 图 进行 张 量 计算 。 现 在 看 起 来 这 些 介绍 有 些 喝 嗪 ， 但 是 这 有 助 于 理解 后 续 章 节 的 内 容 。 


1.6 正明 操作 


现在 开始 学 习 TensorFlow 计 算 图 的 其 他 操作 。 


1.6.1 开始 
除了 标准 数值 计算 外 ，TensorFlow 提 供 很 多 其 他 的 操作 。 在 使 用 之 前 ， 按 照 惯 例 创建 一 个 计算 图 会 话 ， 代 码 如 下 : 
import tensorflow as tf 
sess = tf.Session() 


1.6.2 ”动手 做 

TensorFlow 张 量 的 基本 操作 有 : add () 、sub () 、mul () 和 div () 。 注 意 ， 除 特别 说 明 外 ， 这 章节 所 有 的 操作 都 是 对 张 量 
的 每 个 元 素 进行 操作 : 

1.TensorFlow 提 供 div () 函数 的 多 种 变种 形式 和 相关 的 国 数 。 


2. 值 得 注意 的 ，div () 函数 返回 值 的 数据 类 型 与 输入 数据 类 型 一 致 。 这 意味 着 ， 在 Python 2 中 ， 整 数 除法 的 实际 返回 是 商 的 向 下 
取 整 ， 即 不 大 于 商 的 最 大 整数 ; 而 Python 3 版 本 中 ，TensorFlow 提 供 truediv () 函数 ， 其 会 在 除法 操作 前 强制 转换 整数 为 浮 点 数 ， 
所 以 最 终 的 除法 结果 是 浮 点 数 ， 代 码 如 下 : 


print(sess.run(tf.div(3,4))) 


Q 
print (sess.run(tf.truediv(3,4))) 
0.75 
3 .如果 要 对 浮 点 数 进行 整数 除法 ， 可 以 使 用 floordiv () 函数 。 注 意 ， 此 函数 也 返回 浮 点 数 结果 ， 但 是 其 会 向 下 舍 去 小 数位 到 最 近 


的 整数 。 示 例如 下 : 


print (sess.run(tf.floordiv(3.0,4.0))) 


0.0 


4. 另 外 一 个 重要 的 加 


print(sess.run(tf.mod(22.0, 5 


2.0 


5. 通 过 cross () 


示例 如 下 : 


print (sess.run(tf.cross( [1 
0. 1.0] 


[ 0. 


6. 下 面 给 出 数学 函数 的 列表 : 


qz mod () 


( 取 模 ) 。 


国 数 计算 两 个 张 量 间 的 点 积 。 记 住 ， 点 积 国志 


US 


此 逆 数 返回 除法 的 余数 。 示 例如 下 : 


.0))) 


数 只 为 三 维 向量 定 义 ， 所 以 cross () 


.12)) 


abs() 返回 输入 参数 张 量 的 绝对 值 

ceil() 返回 输入 参数 张 量 的 四 上 取 整 结 末 

cos() 返回 输入 参数 张 量 的 余弦 值 

exp() 返回 输入 参数 张 量 的 自然 常数 e 的 指数 
floor() 返回 输入 参数 张 量 的 癌 下 取 整 结果 

inv() 返回 输入 参数 张 量 的 倒数 

log() 返回 输入 参数 张 量 CAS) APART Be 
maximum() 返回 两 个 输入 参数 张 量 中 的 最 大 值 
minimum() 返回 两 个 输入 参数 张 量 中 的 最 小 值 

neg() 返回 输入 参数 张 量 的 负 值 

pow() 返回 输入 参数 第 一 个 张 量 的 第 二 个 张 量 的 次 震 
round() B [nig ASK SE Pu n A 

rsqrt() 返回 输入 参数 张 量 的 平方 根 的 倒数 

sign() 根据 输入 参数 张 量 的 符号 ， 返回 -1、0 或 1 
sin() 返回 输入 参数 张 量 的 正弦 值 

sqrt() 返回 输入 参数 张 量 的 平方 根 

square() 返回 输入 参数 张 量 的 平方 


消 数 以 两 个 三 维 张 量 作为 输入 ， 


(FRSA: 有 些 用 在 机 器 学 习 中 的 特殊 数学 函数 值得 一 提 ，TensorFlow 也 有 对 应 的 内 建 肖 数 。 除 特别 说 明 外 ， 这 些 函 数 操 
作 的 也 是 张 量 的 每 个 元 素 。 


digamma() 
erf() 

erfc() 
igamma() 
igammac() 
Ibeta() 
lgamma() 


squared difference() 


1.6[3 ”工作 原理 


知道 在 计算 图 中 应 用 什么 遂 数 合适 是 重要 的 。 大 部 分 情况 下 ， 我 们 关心 预 处 理 消 数 ， 但 也 通过 组 合 


数 ， 示 例如 下 : 


# Tangent function (tan(pi/4)= 


print (sess.run(tf.div(tf.sin(3.1416/4. 


1.0 


1.6.4 延伸 学 习 


如 果 硕 望 〈 未 人 在 上 述 阔 数列 表 中 列 出 的 操作 ) 在 计算 图 中 增加 其 他 操作 ， 必 须 创建 自 定 义 陪 


函数 ，3x<-x+10: 


def custom polynomial value): 


return(tf.sub(3 * tf.square(value), 


PY KA (Psi PR), Igamma() P 
返回 张 量 的 高 斯 误差 图 效 
返回 张 量 的 互补 误差 因数 

返回 下 不 完全 伽 马 函数 

i [A] EAN SEE HS PRA 

iB [n] DU YS Pe AE OT LY) A PA XT 
3k [n] IN ES eK A 4 MT EL AT 


zd ad pat [xi zie 


返回 两 个 张 量 间 差 值 的 平方 


print (sess.run(custom polynomial (11))) 


mn 


1.7 ”实现 溅 励 函 数 


1.7.1 开始 


激励 玉 数 是 使 用 所 有 昼 经 网 络 算法 的 必 备 “神器 ”。 激 励 函 


value) 


PR LAF BL 


预 处 理 函 数 生成 许多 自 定义 函 


), t£.cos(3.1416/4.)))) 


数 。 下 面 创建 一 个 自 定义 二 次 多 项 式 


+ 10) 


IMAM TAPAEA., ETensorFlow+, jS ER e EFB 


Fes CAAA ER TE. TURRET ATS ER PL. TBE ARS, (PRES SAT Selo REAR 


而 引进 的 非 线 性 部 分 。 创 建 一 个 TensorFlow 计 算 图 : 


import tensorflow as tf 
sess = tf.Session() 


1.7.1 开始 


ABER E (ERB HAW Zsa ZOOS "TRES" . 激励 六 数 的 目的 是 为 了 调节 权重 和 误差 。 在 TensorFlow 中 ， 激 励 函 数 是 作用 
在 张 量 上 的 非 线 性 操作 。 激 励 函 数 的 使 用 方法 和 前 面 的 数学 操作 相似 。 激 励 函 数 的 功能 有 很 多 ， 但 其 主要 是 为 计算 图 归 一 化 返回 结 
而 引进 的 非 线 性 部 分 。 创 建 一 个 TensorFlow 计 算 图 : 


import tensorflow as tf 
sess = tf.Session() 


1.7.2 动手 做 


TensorFlow 的 激励 六 数 位 于 神经 网 络 (neural network, nn) 库 。 除 了 使 用 TensorFlow 内 建 激励 滔 数 外 ， 我 们 也 可 以 使 用 
TensorFlow 操 作 设 计 自 定义 激励 国 数 。 导 入 预定 义 激 励 国 数 ， 或 者 在 国 数 中 显 式 调用 .nn。 这 里 ， 选 择 每 个 国 数 显 式 调用 的 方法 。 


1. 整 流 线 性 单元 (Rectifier linear unit, ReLU) 是 神经 网 络 最 常用 的 非 线 性 水 数 。 其 疯 数 为 max (0, x) ， 连 续 但 不 平滑 。 示 例 
如 下 : 


print (sess.run(tf.nn.relu([-3., 3., 10.]))) 
[ 0. 3. 10.] 


2. 有 时 为 了 抵消 ReLU 激 励 肖 数 的 线性 增长 部 分 ,会 在 min () BERE max (o, x) ， 其 在 TensorFlow 中 的 实现 称 作 
ReLU6， 表 示 为 min (max (0, x) , 6) 。 这 是 hard-sigmoid 函 数 的 变种 ， 计 算 运 行 速度 快 ， 解 决 梯度 消失 (无 限 趋 近 于 0) ， 这 些 
将 在 第 8 章 和 第 9 章 中 详细 阐述 ， 使 用 方式 如 下 : 

print(sess.run(tf.nn.relu6([-3., 3., 10.]))) 
[0. 3. 6.] 


3.sigmoidE AER FSAI, HBA RE. CERERE (Logistic) ， 表 示 为 1/ (1+exp (-x) ) 。 
sigmoidERZX EH-- CER vas SVE PRESET 0, AULA AERA. (FAST: 


print (sess.run(tf£.nn.sigmoid([-1., 0., 1.]))) 
[ 0.26894143 0.5 0.7310586 ] 


一 注意 ， 有 些 激励 函数 不 以 0 为 中 心 ， 比 如 ，sigmoid 函 数 。 在 大 部 分 计算 图 算法 中 要 求 优先 使 用 均值 为 0 的 样本 数据 集 。 


4. 另 外 一 种 激励 国 数 是 双 曲 正切 函数 (hyper tangent, tanh) 。 双 曲 正切 滔 数 与 sigmoid 遂 数 相 似 ， 但 有 一 点 不 同 : XXERIEUJER 
数 取 值 学 围 为 0 到 1; sigmoid 背 数 取 值 沁 围 为 -1 到 1。 双 曲 正切 阔 数 是 双 曲 正弦 与 双 曲 余弦 的 比值 ， 另 外 一 种 写法 是 ( (exp (x) - 
exp (-x) ) / (exp (x) +exp (-x) ) 。 使 用 方式 如 下 : 


print (sess.run(tf.nn.tanh([-1., 0., 1.]))) 
[-0.76159418 0. 0.76159418 |] 


5.softsign auth ARAMA, RAA: x/ (abs (x) +1) 。softsign 六 数 是 符号 国 数 的 连续 估计 ， 使 用 方式 如 下 : 


print(sess.run(tf.nn.softsign([-1., 0., -1.]))) 
[40.5 Ü 0.5] 


6.softplus MAMA EReLU ARRAES, RAAI: log (exp (x) +1) 。 使 用 方式 如 下 : 


print (sess.run(tf.nn.softplus([-1., 0., -1.]))) 
[ 0.31326166 0.69314718 1.31326163] 


光一 注意 ， 当 输入 增加 时 ，softplus 激 励 函 数 趋 近 于 无 限 大 ，softsign 函 数 趋 近 于 1; 当 输 入 减 小 时 ，softplus 激 励 函数 趋 近 于 


0, softsigon ý ZU t T--1. 


7.ELU 激 励 函 数 (Exponential Linear Unit, ELU) 与 softplus 激 励 函 数 相似 ， 不 同 点 在 于 : 当 输 入 无 限 小 时 ，ELU 激 励 函 数 趋 近 
于 -1， 而 softplus 激 励 滔 数 趋 近 于 0。 表 达 式 为 (exp (x) +1) if x«O else x， 使 用 方式 如 下 : 


printí(sess.run(tf.nn.elu([-1., 0., -1.]))) 
[-0.63212055 0. l. ] 


1.7.3 工作 原理 


上 面 这 些 激励 函数 是 神经 网 络 引 入 的 非 线 性 部 分 ， 并 需要 知道 在 什么 位 置 使 用 激励 国 数 。 如 果 激 励 国 数 的 取 值 学 围 在 0 和 1 之 间 ， 
比如 sigmoid 激 励 函 数 ， 那 计算 图 输出 结果 也 只 能 在 0 到 1 之 间 取 值 。 


如 果 激 励 函 数 隐 藏 在 节 点 之 间 ， 就 要 意识 到 激励 函数 作用 于 传 入 的 张 量 的 影响 。 如 果 张 量 要 缩放 为 均值 为 0， 就 需要 使 用 激励 函数 
使 得 尽 可 能 多 的 变量 在 0 附近 。 这 上 暗示 我 们 选用 双 曲 正切 (tanh) 函数 或 者 softsign 辑 数 。 


1.7.4 延伸 学 习 


图 1-3 和 图 1-4 展 示 了 不 同 激励 函数 ， 从 中 可 以 看 到 的 激励 函数 有 ReLU、ReLU6、softplus、ELU、sigmoid、softsign 和 tanh。 
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图 1-4 ”sigmoid、softsign 和 tanh 激 励 函 数 


图 1-4 展 示 的 是 sigmoid 激 励 阔 数 、 双 曲 正 切 (tanh) 激励 冰 数 和 softsign 激 励 冰 数 。 这 些 激励 函数 都 是 平滑 的 、 具 有 3 型 ， 注 意 
有 两 个 激励 函数 有 水 平 渐 近 续 。 


1.8” 读 取 数 据 源 


本 书 中 使 用 样本 数据 集训 练 机 器 学 习 算法 模型 ， 本 章 简要 介绍 如 何 通过 TensorFlow 和 Python 访问 各 种 数据 源 。 


1.8.1 开始 


在 TensorFlow 中 ， 有 泽 数据 源 使 用 Python 内 建 库 ， 有 的 需要 编写 Python 脚本 下 载 ， 还 有 其 他 的 得 手动 从 网 上 下 载 。 所 有 这 些 数 
据 源 都 需要 联网 才能 获取 到 。 


1.8.2 ”动手 做 


1. 萤 尾 化 二 数据 集 (Iris data) 。 此 样本 数据 是 机 器 学 习 和 统计 分 析 最 经 典 的 数据 集 ， 包 含山 芒 尾 、 变 色 萤 尾 和 维 吉 尼 亚 芒 尾 各 
目的 花 芋 和 花 斩 的 长 度 和 宽度 。 和 总 共有 150 个 数据 集 ， 每 类 有 50 个 样本 。 用 Python 加 载 样本 数据 集 时 ， 可 以 使 用 Scikit Learn 的 数据 


FRAU SADT: 


from sklearn import datasets 

iris - datasets.load iris() 

print (len(iris.data) ) 

150 

print (len(iris.target) ) 

150 

print (iris.target[0]) # Sepal length, Sepal width, Petal length, 
Petal width 

Seb 3.5 1.4 0.2] 

print (set(iris.target)) # I. setosa, I. virginica, I. versicolor 
(0, 1, 2} 


2. 出 生体 重 数 据 (Birth weight data) 。 此 样本 数据 集 是 婴儿 出 生体 重 以 及 母亲 和 家 庭 历史 人 口 统计 学 、 医 学 捐 标 ， 有 189 个 样 
本 集 ， 包 含 11 个 特征 变量 。 使 用 Python 访问 的 数据 的 方式 : 


import requests 

birthdata url = 'https://www.umass.edu/statdata/statdata/data/ 
lowbwt.dat' 

birth file - requests.get(birthdata url) 

birth data = birth file.bext.spilEb[('M'rin') [5:] 

birth header - [x for x in birth data[0].split( '') if len(x)»-1] 
birth data = [[float(x) for x in y.split( ')'' if len(x)>=1] for y 
in birth data[1:] if len(y) >=1] 

print(len(birth data)) 

Log 

print (len(birth data[0])) 

44 


3. 波 士 顿 房价 数据 (Boston Housing data) 。 此 样本 数据 集 保 仓 在 卡 内 基 梅 隆 大 学 机 器 学 习 仓库 ， 辟 共有 506 个 房价 样本 ， 包 合 
14 个 特征 变量 。 使 用 Python 获取 数据 的 方式 : 


import requests 


housing url - 'https://archive.ics.uci.edu/ml/machine-learning- 
databases/housing/housing.data' 

housing header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 
'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDVO'] 
housing file - requests.get(housing url) 

housing data = [[float(x) for x in y.split( '') if len(x)>=1] for 


y in housing file.text.split('\n') if len(y)»-1] 
print (len(housing data)) 

506 

print (len (housing data[0])) 

14 


4.MNIST 手 写 体 字库 : MNIST 手 写 体 字库 是 NIST 手 写 体 字库 的 子 样本 数据 集 ， 网 址 : https://yann.lecun.com/exdb/mnist/, 
包含 70000 张 0 到 9 的 图 像 ， 其 中 60000 张 标注 为 训练 样本 数据 集 ，10000 张 为 测试 样本 数据 集 。TensorFlow 提 供 内 建国 数 来 访问 
已 ，MNIST 手 写 体 字库 弟 用 来 进行 图 像 识别 训练 。 在 机 器 学 习 中 ， 提 供 验证 样本 数据 集 来 预防 过 拟 合 是 非 钊 重要 的 ，TensorFlow 从 
训练 样本 数据 集中 留 出 ?000 张 图 片 作为 验证 样本 数据 集 。 这 里 展示 使 用 Python 访问 数据 的 方式 : 


from tensorflow.examples.tutorials.mnist import input data 


mnist - input data.read data sets("MNIST data/"," one hot-True) 
print(len(mnist.train.images)) 

55000 

print(len(mnist.test.images)) 

10000 

print (len(mnist.validation.images) ) 

5000 


print (mnist.train.labels[1,:]) # The first label is a 3''' 
LO. 0. D. d. Os ©. 0. Üs Os, 290. 


5. 坪 圾 短信 文本 数据 集 (Spam-ham text data) 。 通 过 以 下 方式 访问 垃圾 短信 文本 数据 : 


import requests 

import io 

from zipfile import ZipFile 

zip url = 'http://archive.ics.uci.edu/ml/machine-learning- 
databases/00228/smsspamcollection.zip' 

r - requests.get(zip url) 

Z = ZipFile(io.BytesIO(r.content)) 

file = z.read('SMSSpamCollection!) 

text data - file.decode() 

text data = text data.encode('ascii',errors='ignore') 

text data = text data.decode().split(\n') 

text data = [x.split(\t') for x in text data if len(x) >=1] 


[text data target, text data train] = [list(x) for x in zip(*text 
data) ] i i i i 
print(len(text data train)) 

5574 


print (set (text data target)) 
{'ham', 'spam!' } 

print (text data train[1] ) 

Ok lar... Joking wif u oni... 


影评 样本 数据 集 。 此 样本 数据 集 是 电影 观看 者 的 影评 ， 分 为 好 评 和 差 评 ， 可 以 在 网 
站 http://www.cs.cornell.edu/people/pabo/movie-review-data/ 下 载 。 这 里 用 Python 进 行 数据 处 理 ， 使 用 方式 如 下 : 


import requests 
import io 
import tarfile 


movie data url - 'http://www.cs.cornell.edu/people/pabo/movie- 
review-data/rt-polaritydata.tar.gz' 


r = requests.get(movie data url) 
# Stream data into temp object 
stream data - io.BytesIO(r.content) 
tmp - io.BytesIO() 
while True: 

S - stream data.read(16384) 

if not s: 

break 

tmp.write(s) 

stream data.close() 


tmp.seek(0) 
# Extract tar file 
tar file = tarfile.open(fileobj=tmp, mode="r:gz") 


pos = tar file.extractfile('rt'-polaritydata/rt-polarity.pos') 
neg = tar file.extractfile('rt'-polaritydata/rt-polarity.neg') 
# Save pos/neg reviews (Also deal with encoding) 
pos data = [] 
for line in pos: 
pos data.append(line.decode('ISO'-8859-1!). 
encode ('ascii',errors='ignore') .decode () ) 
neg data = [] 
for line in neg: 
neg data.append(line.decode('ISO'-8859-1'!). 
encode ('ascii',errors='ignore') .decode () ) 


tar file.closei) 

print (len(pos data) ) 

2234 

print(len(neg data)) 

23341 

4 Print out first negative review 
print (neg data[0]) 

Simplistic , silly and tedious 


7.CIFAR-10 图 像 数 据 集 。 此 图 像 数 据 集 是 CIFAR 机 构 友 布 的 8 亿 张 彩色 图 片 已 标注 为 ，32x32 像 素 ) 的 子 集 ， 总 共 分 10 
类 ，60000 张 图 片 。50000 张 图 片 训练 数据 集 ，10000 张 测试 数据 集 。 由 于 这 个 图 像 数据 集 数据 量 大 ， 并 在 本 书 中 以 多 种 方式 使 用 ， 后 
面 到 具体 用 时 再 细 讲 ， 访 问 网 址 为 : http://www.cs.toronto.edu/~kriz/cifar.html, 


8. 沙 士 比 亚 著作 文本 数据 集 (Shakespeare text data) 。 此 文本 数据 集 是 古 登 堡 数字 电子 书 计 划 提 供 的 免费 电子 书籍 ， 他 们 编译 
了 莎士比亚 所 有 著作 。 用 Python 访问 文本 文件 的 方式 如 下 : 


import requests 


shakespeare url = 'http://www.gutenberg.org/cache/epub/100/pg100. 
EXEC 


# Get Shakespeare text 

response = requests.get (shakespeare url) 
shakespeare file - response.content 

# Decode binary into string 

shakespeare text = shakespeare file.decode('utf-8') 
# Drop first few descriptive paragraphs. 
Shakespeare text = shakespeare text[7675:] 

print (len(shakespeare text)) # Number of characters 
Soo sia 


9. 英 德 句 子 翻译 样本 集 。 此 数据 集 由 Tatoeba (在 线 翻译 数据 库 ) AA, ManyThings.org (http://www.manythings.org) 整 
理 并 提供 下 载 。 这 里 提供 英 德 语句 互 译 的 文本 文件 (你 可 以 通过 改变 URL， 使 用 你 需要 的 任何 语言 的 文本 文件 ) ， 使 用 方式 如 下 : 
import requests 


import io 
from zipfile import ZipFile 


sentence url = 'http://www.manythings.org/anki/deu-eng.zip' 

r = requests.get(sentence url) 

Z = ZipFile(io.BytesIO(r.content)) 

file = z.read('deu.txt''') 

# Format Data 

eng ger data - file.decode() 

eng ger data = eng ger data.encode('ascii''',errors='ignore''') 
eng ger data = eng ger data.decode().split(\n''') 

eng ger data = [x.split(\t''') for x in eng ger data if len(x) >=1] 
[english sentence, german sentence] - [list(x) for x in zip(*eng 
ger data)] 

print(len(english sentence)) 

137673 

print (len (german sentence) ) 

45460173 


print (eng ger data[10] ) 
['I won!, 'Ich habe gewonnen! '] 


183 8% 


>» Hosmer, D.W., Lemeshow, S., and Sturdivant, R. X. (2013). Applied Logistic 
Regression: 3rd Edition. https: //www.umass.edu/statdata/statdata/data/ 
lowbwt.txt 


>» | Lichman, M. (2013). UCI Machine Learning Repository. http: //archive.ics. 
uci.edu/ml.lrvine, CA: University of California, School of Information and Computer 
Science. 


> Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan, Thumbs up? Sentiment 
Classification using Machine Learning Techniques, Proceedings of EMNLP 2002. 
http://www.cs.cornell.edu/people/pabo/movie-review-data/ 


>»  Krizhevsky. (2009). Learning Multiple Layers of Features from Tiny Images. http: // 
www.cs.toronto.edu/-kriz/cifar.html 


>» Project Gutenberg. Accessed April 2016. http: //www.gutenberg.org/. 


1.9 ”学 习 人 资料 


这 里 提供 一 些 关 于 TensorFlow 使 用 和 学 习 的 链接 、 文 档 资 料 和 用 例 |。 
TensorFlow 资 源 列表 如 下 : 
1. 本 书 代码 可 在 GitHub 获 取 https://github.com/nfmcclure/tensorflow cookbook, 


2.TensorFlow 官 方 Python API 文 档 地 址 : https://www.tensorflow.org/api docs/python。 其 中 包括 TensorFlow 所 有 上 卫 数 、 对 
象 和 方法 的 文档 和 例子 。 本 书 当前 的 TensorFlow 版 本 为 r0.8。 


3.TensorFlow 官 方 用 例 相当 详细 ， 访 问 网 址 : https://www.tensorflow.org/tutorials/index.html。 包 括 图 像 识别 模型 、 
Word2Vec、RNN 模 型 和 sequence-to-sequence 模 型 ， 也 有 些 偏 微分 方程 的 例子 。 后 续 还 会 不 断 增 加 更 多 实例 。 


4.TensorFlow 官 方 GitHub 仓 库 : https://github.com/tensorflow/tensorflow。 你 可 以 查看 源 代码 ， 甚 至 包含 fork 或 者 clone 最 
新 代码 。 也 可 以 看 到 最 近 的 issue。 


5.TensorFlow 在 Dockerhub 上 维护 的 公开 Docker 镜 像 ， 网 址 为 https://hub.docker.com/r/tensorflow/tensorflow/。 


6.TensorFlow 提 供 可 下 载 的 虚拟 机 ， 基 于 Ubuntu 15.04 操 作 系 统 安 装 TensorFlow。 这 样 对 于 Windows PC 用 户 更 容易 使 用 
TensorFlow 的 UNIX 版 本 。 


7.Stack Overflow 上 有 TensorFlow 标 签 的 知识 问答 。 随 着 TensorFlow 日 益 流 行 ， 这 个 标签 下 的 问答 在 不 断 增 长 ， 访 问 网 址 
73: http://stackoverflow.com/questions/tagged/TensorFlow, 


8.TensorFlow 非 常 灵 活 ， 应 用 场景 广 ， 最 常用 的 是 深度 学 习 。 为 了 理解 深度 学 习 的 基础 ， 数 学 知识 和 深度 学 习 开发 ，Google 在 
在 线 课 程 Udacity 上 开课 ， 网 址 为 : https://www.udacity.com/course/deep-learning--ud730, 


9.TensorFlow 也 提供 一 个 网 站 ， 让 你 可 以 可 视 化 查看 随 着 参数 和 样本 数据 集 的 变化 对 训练 神经 网 络 的 影响 ， 网 址 
73: http://playground.tensorflow.org, 


10. 深 度 学 习 开山 祖师 和 区 Geoffrey Hinton 在 Coursera 上 开课 教授 “机 器 学 习 中 的 神经 网 络 ”， 网 址 


73: https://www.coursera.org/learn/neural-networks, 


11. 斯 坦 福 大 学 提供 在 线 课 程 “ 图 像 识 别 中 卷 积 神 经 网 络 ” 及 其 详细 的 课件 ， 网 址 为 : http://cs231n.stanford.edu/。 


参考 


> Winters, D. https://docs.google.com/forms/d/1mUztUlKe | 
z3lBbMW5sihXaYHlhBcbDd94mERe-8XHyoI/viewform 


第 2 章 TensorFlow 进 阶 


本 章 将 介绍 如 何 使 用 TensorFlow 的 天 键 组 件 ， 并 串联 起 来 创建 一 个 简单 的 分 类 器 ， 评 佑 输出 结果 。 阅 读本 章 你 会 学 到 以 下 知识 


` 计算 图 中 的 操作 

: TensotFlow #9 4£ ALayer 

- TensorFlow% 4% Layer 

: TensorFlow 32 ILAR Kw BK 

: TensorFlow 实 现 反 向 传播 

. TensotrFlow 实 现 随 机 训练 和 批量 训练 
- TensotFlow 实 现 创 建 分 类 器 


: TensotFlow 实 现 模 型 评估 


2.1 ABE 


现在 我 们 已 经 学 习 完 TensorFlow 如 何 创建 张 量 ， 使 用 变量 和 占 位 待 ; 下 面 将 把 这 些 对 象 组 成 一 个 计算 图 。 基 于 此 ， 创 建 一 个 简单 
的 分 类 器 ， 并 看 下 性 能 如 何 。 


> 
3 € 
Nc 


一 本 书 的 所 有 源 代码 可 以 在 GitHub (https://github.com/nfmcclure/tensorflow_cookbook) 下 载 。 


2.2 计算 图 中 的 操作 


现在 可 以 把 这 些 对 象 表示 成 计算 图 ， 下 面 介绍 计 算 图 中 对 象 的 操作 。 


2.2.1 开始 


导入 TensorFlow， 创 建 一 个 会 话 ， 开 始 一 个 计算 图 : 


import tensorflow as tf 
sess - tf.Session() 


2.2.2 ”动手 做 


在 这 个 例子 中 ， 我 们 将 结合 前 面 所 学 的 知识 ， 传 入 一 个 询 表 到 计算 图 中 的 操作 ， 并 打印 返回 值 : 
1. 首 先 ， 声 明 张 量 和 占 位 符 。 这 里 ,创建 一 个 humpy 数 组 ， 传 入 计算 图 操作 : 


import numpy as np 


x vals = np.arrayil|l., 3.4, Six Tay Bad) 
x data - tf.placeholder(tf.float32) 

m const - tf.constant(3.) 

my product = tf.mul(x data, m const) 


for x val in x vals: 
print(sess.run(my product, feed dict={x data: x val])) 
3. U 
RU 
135. 
24. 10] 
27.0 


2.2.3 ”工作 原理 


首先 ， 创 建 数据 集 和 计算 图 操作 ， 然 后 传 入 数据 、 打 印 返 回 值 。 下 面 展 示 计 算 图 ( 见 图 2-1) : 


图 2-1 图 中 展示 了 占 位 符 、 葡 data、 乘法 常量 传 入 乘法 操作 


2.3 TensorFlowBSgBgA Layer 


在 本 节 ， 我 们 将 学 习 如 何在 同一 个 计算 图 中 进行 多 个 乘法 操作 。 


2.3.1 开始 
下 面 我 们 将 用 两 个 矩阵 乘 以 占 位 符 ， 然 后 做 加 法 。 传 入 两 个 矩阵 (三 维 numpy 数 组 ) : 


import tensorflow as tf 
sess - tf.Session() 


2.3.2 ”动手 做 


知道 数据 在 传 入 后 是 如 何 改变 形状 的 也 是 非常 重要 的 。 我 们 将 传 入 两 个 形状 为 3x5 的 nNumpy 数 组 ， 然 后 每 个 矩阵 乘 以 常量 矩阵 
(形状 为 : 5x1) ， 将 返回 一 个 形状 为 3x 1 的 矩 嘿 。 紧 接 着 再 乘 以 1x 1 的 和 矩阵， 返回 的 结果 和 矩阵 仍然 为 3x 1。 最 后 ， 加 上 一 个 3x 1 的 和 矩 
阵 ， 示 例如 下 : 


1. 首 先 ， 创 建 数据 和 占 位 符 : 


my array e MDLrravil [lle Bey Say Tiy 9.]4 
[-2.; Us; 25:5 4.; Sal, 
[-6., -3., 0., 3., 6.11) 
np.array([my array, my array + 11) 
tf.placeholder(tf.float32, shape-(3, 5)) 


x vals 


x data 


2. 接 着 ， 创 建 息 阵 乘 法 和 加 法 中 要 用 到 的 冲 量 息 阵 : 


ml = t£.constant([[1.], [0.], [-1.1],[2.], [4.1] ] 
m2 = tf.constant([[2.11) 
al = tf.constant([[10.11) 


3. 现 在 声明 操作 ， 表 示 成 计算 图 : 


prodi = tf£.matmul(x data, m1) 
prod2 tf.matmul (prodi, m2) 
add1 = tf.add(prod2, al) 


4. 最 后 ， 通 过 计算 图 赋值 : 


for x val in x vals: 
print(sess.run(addl, feed dict={x data: x val})) 
102.] 
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2.3.3 ”工作 原理 


上 面 创建 的 计算 图 可 以 用 Tensorboard 可 视 化 。Tensorboard 是 TensorFlow 的 功能 ， 人 允许 用 户 在 图 中 可 视 化 计算 图 和 值 。 这 些 功 


能 是 原生 的 ,不 像 其 他 机 器 学 习 框架 。 如 果 想 知道 这 是 如 何 做 到 的 ， 可 参见 第 11 草 。 图 2-2 是 藤 入 层 计 算 图 。 


2.3.4 JERZY 


在 我 们 通过 计算 图 运行 数据 之 前 心里 要 有 个 数 : 声明 数据 形状 ， 预 估 操 作 返 回 值 形 状 。 由 于 预先 不 知道 或 者 维度 在 变化 ， 情 况 也 
可 能 友 生 变化 。 为 了 实现 目标 ， 我 们 指明 变化 的 维度 ， 或 者 事先 不 知道 的 维度 设 为 None。 例 如 ， 占 位 答 有 未 知 列 维 度 ， 使 用 方式 如 


x data = tf.placeholder(tf.float32, shape-(3,None)) 
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图 2-2 ”在 图 中 可 以 看 到 向 上 传播 的 计算 图 的 数据 大 小 


上 面 哇 然 允许 打破 矩阵 乘法 规划， 但 仍然 需要 遵守 一 一 乘 以 常量 算 阵 返回 值 有 有 一致 的 行 数 。 在 计算 图 中 ， 也 可 以 传 入 动态 的 
x_data， 或 者 更 改 形状 的 x_data， 具 体 细节 将 在 多 批量 传 入 数据 时 讲解 。 


24 TensorFlow 的 多 层 Layer 


目前 ,我 们 已 经 学 完 在 同一 个 计算 图 中 进行 多 个 操作 ， 接 下 来 将 讲述 如 何 连 接 传播 数据 的 多 层 Layer。 


2.4.1 开始 


本 书 中 ， 将 介绍 如 何 更 好 地 连接 多 层 Layer， 包 括 目 定 义 Layer。 这 里 给 出 一 个 例子 (数据 是 生成 随机 图 片 数 据 ) ， 以 更 好 地 理解 
不 同类 型 的 操作 和 如 何 用 内 建 层 Layer 进 行 计算 。 我 们 对 2D 图 像 进行 滑动 窗口 平均 ， 然 后 通过 目 定 义 操作 层 Layer 退 回 结果 。 


在 这 节 ， 我 们 将 会 看 到 TensorFlow 的 计算 图 太 大 ， 导 致 无 法 完整 查看 。 为 了 解决 此 问题 ， 将 对 各 层 Layer 和 操作 进行 层级 命名 管 
理 。 按 照 惯例 ， 加 载 numpy 和 tensorflow 模 块 ， 创 建 计 算 图 ， 代 码 如 下 : 
import tensorflow as tf 
import numpy as np 
sess = tf.Session() 


2.4.2 mE 


1. 首 先 ， 通 过 numpy 创 建 2D 图 像 ，4x 4 像素 图 片 。 我 们 将 创建 成 四 维 : 第 一 维和 最 后 一 维 大 小 为 1。 注 意 ，TensorFlow 的 图 像 函 
数 是 处 理 四 维 图 片 的 ， 这 四 维 是 : 图 片 数 量 、 高 度 、 芝 度 和 颜色 通道 。 这 里 是 一 张 图 片 ， 单 颜色 通道 ， 所 以 设 两 个 维度 值 为 1: 


x shape = [1, 4, 4, 1] 
x val = np.random.uniform(size-x shape) 


2. 下 面 在 计算 图 中 创建 占 位 符 。 此 例 中 占 位 符 是 用 来 传 入 图 片 的 ， 代 码 如 下 : 


x data = tf.placeholder(tf.float32, shape-x shape) 


3.7 f GJ dA x MARREK SETAA, SK FTensorFlowPg£&eZconv2d () (常用 来 做 图 像 处 理 ) 卷 积 2x 2 形状 的 常量 
窗口 。conv2d () 数 传 入 滑动 窗口 、 过 滤器 和 步 长 。 本 例 将 在 滑动 窗口 四 个 方向 上 计算 ， 所 以 在 四 个 方向 上 都 要 指定 步 长 。 创 建 一 
个 2x2 的 窗口 ， 每 个 方向 长 度 为 2 的 步 长 。 为 了 计算 平均 值 ， 我 们 将 用 音量 为 0.25 的 向 量 与 2x2 的 窗口 卷 积 ， 代 码 如 下 : 


my filter = tf.constant(0.25, shape-[2, 2, 1, 11) 

my strides - [1, 2, 2, 1| 

mov avg layer- tf.nn.conv2d(x data, my filter, my strides, 
padding-'SAME''', name-'Moving' Avg 

Window!) 


: 
AY 
- 


一 可 以 使 用 公式 : Output= (W-F+2P) /S+1 计 算 卷 积 层 的 返回 值 形状 。 这 里 ，W 是 输入 形状 , F 是 过 滤器 形状 ，P 是 padding 的 
大 小 ，S 是 步 长 形状 。 


4. 注 意 ， 我 们 通过 conv2d () 函数 的 name 人 参数 ， 把 这 层 Layer 命 名 为 “Moving Avg Window" , 

5. 现 在 定义 一 个 自 定义 Layer， 操 作 滑 动 窗口 平 均 的 2x 2 的 返回 值 。 自 定义 函数 将 输入 张 量 乘 以 一 个 2x 2 的 和 拭 阵 张 量 ， 然 后 每 个 元 
素 加 1。 因 为 矩阵 乘法 只 计算 二 维 丰 哇 ， 所 以 甬 裁 图 像 的 多 余 维 度 (大 小 为 1) 。TensorFlow 通 过 内 建 消 数 squeeze () HR. FAE 
新 定义 的 Layer: 

def custom layer(input matrix): 

input matrix sqeezed - tf.squeeze(input matrix) 
A = tf.constant([[1., 2.1], [-1., 3.11) 


b - tf.constant(1., shape-[2, 2]) 
templ = tf.matmul(A, input matrix sqeezed) 


temp = tf.add(templ, b) # Ax + b 
return(tf.sigmoid(temp)]) 


6. 现 在 把 刚刚 新 定义 的 Layer 加 入 到 计算 图 中 ， 并 且 用 tf.name_scope () 命名 唯一 的 Layer 名 字 ， 后 续 在 计算 图 中 可 折 区 /扩展 
Custom Layer 层 ， 代 码 如 下 : 


with tf.name scope('Custom Layer') as scope: 
custom layerl = custom layer (mov avg layer) 


7 为 占 位 符 传 入 4x4 像 素 图 片 ， 然 后 执行 计算 图 ， 代 码 如 下 : 


print(sess.run(custom layerl, feed dict={x data: x val])) 
[[ 0.91914582 0.96025133] 
[ 0.87262219 0.9469803 ]] 


24.3 ”工作 原理 


已 合 名 的 层级 Layer 和 操作 的 可 钢化 图 看 起 来 更 清晰 ， 我 们 可 以 折 寺 和 展开 已 命名 的 目 定 义 层 Layer。 在 图 2-3 中 ， 我 们 可 以 在 左边 
看 到 折 苹 的 概略 图 ， 在 右边 看 到 展开 的 详细 图 : 
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图 2-3 ”两 层 计算 图 。 第 一 层 是 Moving Avg Window, $ —/& Æ Custom, Layer 


2.5 TensorFlowSCHUH Ac ERZA 


fuABRAA (loss function) 对 机 器 学 习 来 讲 是 非常 重要 的 。 它 们 度量 模型 输出 值 与 目标 值 (target) 间 的 差 值 。 本 节 会 介绍 
TensorFlow 中 实现 的 各 种 损失 函数 。 


2.5.1 开始 


为 了 优化 机 器 学 习 算 法 ， 我 们 需要 评估 机 器 学 习 模 型 训练 输出 结果 。 在 TensorFlow 中 评估 输出 结果 依赖 损失 函数 。 损 失 遂 数 告 诉 
TensorFlow， 预 测 结 果 相 比 期 望 的 结果 是 好 是 坏 。 在 大 部 分 场景 下 ， 我 们 会 有 算法 模型 训练 的 样本 数据 集 和 目标 值 。 损 失 消 数 比较 预 


测 值 与 目标 值 ， 并 给 出 两 者 之 间 的 数值 化 的 差 值 。 
本 节 会 介绍 TensorFlow 能 实现 的 大 部 分 损失 函数 。 


为 了 比较 不 同 损失 闵 数 的 区 别 ， 我 们 将 会 在 图 表 中 绘制 出 来 。 先 创建 计算 图 ， 然 后 加 载 matplotlib (Python 的 绘图 库 ) ， 代 码 如 
F: 


import matplotlib.pyplot as plt 
import tensorflow as tf 


2.5.2 ”动手 做 

首先 ， 将 讲解 回归 算法 的 损失 函数 。 回 归 算法 是 预测 连续 因 变 量 的。 创建 预测 序列 和 目标 序列 作为 张 量 ， 预 测序 列 是 -1 到 1 之 间 的 
SAB, (SUR: 

x vals = tf.linspace(-1., 1., 500) 

target = tf.constant (0.) 


1.L2 正 则 损失 函数 ( 即 欧 拉 损失 水 数 ) 。L2 正 则 损失 为数 是 预测 值 与 目标 值 差 值 的 平方 和 。 注 意 ， 上 述 例子 中 目标 值 为 0。L2 正 则 
损失 函数 是 非常 有 用 的 损失 函数 ， 因 为 它 在 目标 值 附 近 有 更 好 的 曲 度 ， 机 器 学 习 算法 利用 这 点 收敛 ， 并 且 离 目标 越 近 收 敛 越 慢 ， 代 码 
如 下 : 


12 y vals = tf.square(target - x vals) 
12 y out - sess.run(12 y vals) 


次 一 TensorFlow 有 内 建 的 L2 正 则 形式 ， 称 为 nn.12_loss () 。 这 个 函数 其 实 是 实际 L2 正 则 的 一 半 ， 换 句 话说 ， 它 是 上 面 12_y vast 


19/25 
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在 目标 值 附 近 不 平滑 ， 这 会 导致 算法 不 能 很 好 地 收敛 。 代 码 如 下 : 


11 y vals = tf.abs(target - x vals) 
11 y out = sess.run(l1 y vals) 


3.Pseudo-Huberiz A ERE Hubert KARANE, eit, UEDRUFBLTRUL2ZIERUBUJAARTEMERSEEN, eSB EISE 
续 。 它 的 表达 式 依 赖 参 数 delta。 我 们 将 绘图 来 显示 delta1=0.25 和 delta2=5 的 区 别 ， 代 码 如 下 : 


deltal = tf.constant(0.25) 

phuberl y vals = tf.mul(tf.square(delta1), tf.sqrt(1. + 
tf.square((target - x vals)/deltal)) - 1.) 

phuberl y out = sess.run(phuberl y vals) 

delta2 = tf.constant(5.) 

phuber2 y vals = tf.mul(tf.square(delta2), tf.sqgrt(1. + 
tf.square((target - x vals)/delta2)) - 1.) 

phuber2 y out - sess.run(phuber2 y vals) 


4 .分 类 损失 函数 是 用 来 评估 预测 分 类 结果 的 。 
5 .重新 给 x_vals 和 target 赋 值 ， 保 存 返回 值 并 在 下 节 绘 制 出 来 ， 代 码 如 下 : 
x vals = tf.linspace(-3., 5., 500) 


target tf.constant (1.) 
targets = tf.fill([500,], 1.) 


6.Hinge 损 失 了 水 数 主要 用 来 评估 支持 向 量 机 算法 ， 但 有 时 也 用 来 评估 神经 网 络 算法 。 在 本 例 中 是 计算 两 个 目标 类 C1, 1) 之 间 的 
损失 。 下 面 的 代码 中 ， 使 用 目标 值 1， 所 以 预测 值 离 1 越 撕 ， 损 失 阴 数值 越 小 : 


hinge y vals = tf.maximum(0., 1. - tf.mul(target, x vals)) 
hinge y out - sess.run(hinge y vals) 


T. AKINA KAZ (Cross-entropy loss) AA te EZJEIERSACEREN. CoM, SMUMRA MORAN, PLE SMBs 
真实 分 类 值 (0 或 者 1) HEA, MBA 2021 Zi. ASRS MES, RTT ASSIS RHA, TSMR: 


xentropy y vals = - tf.mul(target, tf.log(x vals)) - tfi.mul((1. - 
target), tf.log(1. - x vals)) 
xentropy y out - sess.run(xentropy y vals) 


8.Sigmoidaz VS ERZA (Sigmoid cross entropy loss) 与 上 一 个 损失 函数 非常 类似， 有 一 点 不 同 的 是 ， 它 先 把 x_vals 值 通过 
sigmoid, m AAAA, VRAT: 


xentropy sigmoid y vals = tf.nn.sigmoid cross entropy with 
logits(x vals, targets) 


xentropy sigmoid y out - sess.run(xentropy sigmoid y vals) 


9 IMLAR (Weighted cross entropy loss) f&SigmoidSz SQIBHAACERBKRSDDBZ, WEBI. 2E FT, BAIS 
正 目标 加 权 权重 0.5， 代 码 如 下 : 


weight = tf.constant(0.5) 


xentropy weighted y vals - tf.nn.weighted cross entropy with 
logits(x vals, targets, weight) 


xentropy weighted y out - sess.run(xentropy weighted y vals) 


10.Softmaxaz LARKA (Softmax cross-entropy loss) 是 作用 于 非 归 一 化 的 输出 结果 ， 只 针对 单个 目标 分 类 的 计算 损失 。 


通过 softmax 了 数 将 输出 结果 转化 成 概率 分 布 ， 然 后 计算 真 值 概率 分 布 的 损失 ， 代 码 如 下 : 


unscaled logits = tf.constant([[1., -3., 10.]]) 
target dist = tf.constant([[0.1, 0.02, 0.8811) 
softmax xentropy - tf.nn.softmax cross entropy with 
logits(unscaled logits, target dist) 
print(sess.run(softmax xentropy)) 

| 1160125511 


11.850 Softmaxaz N RRA (Sparse softmax cross-entropy loss) 和 上 一 个 损失 函数 类 似 ， 它 是 把 目标 分 类 为 true 的 转化 
成 INdex， 而 Softmax 交 叉 炳 损失 函数 将 目标 转 成 概率 分 布 。 代 码 如 下 : 


unscaled logits = tf.constant([[1., -3., 10.11) 

sparse target dist - tf.constant([2]) 

sparse xentropy - tf.nn.sparse softmax cross entropy with 
logits(unscaled logits, sparse target dist) 

print (sess.run(sparse xentropy)) 

[ 0.00012564] 


2.5.3 ”工作 原理 


这 里 用 matplotlib 绘 制 回归 算法 的 损失 函数 ( 见 图 2-4) : 


x array = sess.run(x vals) 

plt.plot (x array, 12 y out, 'b-', label='L2 Loss!) 

plt.plot(x array, 11 y out, 'r--', labelsz'L1 Loss') 

plt .plot (x array, phuberl y out, 'k-.', label='P-Huber Loss (0.25)') 
DpDIC.ploEIx Pu phuber2 y out, 'g:', label-'P'-Huber Loss (5.0)') 
plt.ylim(-0 0.4) 


iva sedan pide right', prop={'size': 11}) 
plt.show() 


— L2 Loss 
L1 Loss 
P-Huber Loss (0.25) | 
P-Huber Loss (5.0) 


-1.0 -0.5 00 05 10 
E2-4 各 种 回归 算法 的 损失 函数 


下 面 是 用 matplotlib 绘 制 各 种 分 类 算法 损失 阔 数 ( 见 图 2-5) : 


x array = sess.run(x vals) 

plt.plot(x array, hinge y out, 'b-', label-'Hinge Loss!) 

plt.plot(x array, xentropy y out, 'r--', label='Cross Entropy Loss') 
plt .plot (x array, xentropy sigmoid y out, 'k-.', label-'Cross Entropy 


Sigmoid Loss!) 

plt.plot(x array, xentropy weighted y out, g:', label-'Weighted Cross 
Enropy Loss (x0.5)') 

plt.ylim(-1.5, 3) 

plt.legend(loc-'lower right', prop={'size': 11}) 

plt.show() 
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图 2-5 SAHARA AR AB 


2.5.4 JERZY 


下 面 总 结 一 下 前 面 摘 述 的 各 种 损失 函数 : 


损失 函数 i O 点 
L2 缺少 健壮 
LI 缺少 稳定 
Psuedo-Huber 参数 多 
Hinge 异常 值 导致 无 边界 损失 
Cross-entropy 缺少 健壮 ， 出 现 无 边界 损失 


Ete RES AM AA AEBS ae NIA. Sigmoidas Ste ERAS FHEEAEUH— SSE, ScitSsigmoid, Hither 
Wi. Tensor low RFRA ED AVNER Aaa, Softmaxse ZF Softmaxsz ZEB, 


UE 8] 2 RAR A BRAM LAA RAM, KAT VAG HDp 44 SBoRp&/ AR SUI RAP, JOE PAX 


也 有 一 些 其 他 指标 来 评价 机 器 学 习 模型 ， 这 里 给 出 一 个 列表 。 


模型 指标 fü xh 


R 平方 值 ( R-squared) 对 简单 的 线性 模型 来 讲 ， 用 于 度量 因 变 量 的 变异 中 可 由 目 变 量 解释 部 分 所 占 的 比例 
RMSE (平均 方差 ) 对 连续 模型 来 讲 ， 平均 方差 是 度量 预测 的 值 和 观察 到 的 值 之 差 的 样本 标准 差 


对 分 类 模型 来 讲 ， 以 矩阵 形式 将 数据 集中 的 记录 按照 真实 的 类 别 与 分 类 模型 预测 
i VG HEME (Confusion matrix) | 的 分 类 判断 两 个 标准 进行 分 析 汇 总 ， 其 每 一 列 代 表 预 测 值 ， 每 一 行 代表 的 是 实际 的 
类 别 。 理 想 情 况 下 ， 混 消 和 矩阵 是 对 角 和 矩阵 


& E% (Recall) 对 于 分 类 模型 来 讲 ， 召 回 率 是 正 类 预测 为 正 类 数 与 所 有 预测 正 类 数 的 比值 
精准 度 (Precision ) 对 于 分 类 模型 来 讲 ， 精 准 度 是 正 类 预测 为 正 类 数 与 所 有 实际 正 类 数 的 比值 
F fH. (F-score) 对 于 分 类 模型 来 讲 ，F 值 是 召回 紊 和 精准 度 的 调和 平均 数 


2.6 TensorFlow 实 现 反 向 传播 


使 用 TensorFlow 的 一 个 优势 是 ， 它 可 以 维护 操作 状态 和 基于 反 向 传播 自动 地 更 新 模型 变量 。 本 节 将 介绍 如 何 使 用 这 种 优势 来 训练 


机 器 学 习 模 型 。 


2.6.1 开始 


现在 开始 介绍 如 何 调节 模型 变量 来 最 小 化 损失 函数 。 前 面 已 经 学 习 了 创建 对 象 和 操作 ， 创 建 度量 预测 值 和 目标 值 之 间 差 值 的 损失 
国 数 。 这 里 将 讲解 TensorFlow 是 如 何 通过 计算 图 来 更 新 变量 和 最 小 化 损失 函数 来 反 向 传播 误差 的 。 这 步 将 通过 声明 优化 函数 
(optimization function) 来 实现 。 一 旦 声明 好 优化 函数 ，TensorFlow 将 通过 它 在 所 有 的 计算 图 中 解决 反 向 传播 的 项 。 当 我 们 传 入 
数据 ， 最 小 化 损失 阔 数 ，TensorFlow 会 在 计 算 图 中 根据 状态 相应 的 调节 变量 。 


本 节 先 举 个 简单 的 回归 算法 的 例子 。 从 均值 为 1、 标 准 差 为 0.1 的 正 态 分 布 中 抽样 随机 数 ， 然 后 乘 以 变量 A， 损 抢 数 为 L2 正 则 损 
失 函 数 。 理 论 上 ，A 的 最 优 值 是 10， 因 为 生成 的 样 例 数据 均值 是 1。 


第 二 个 例子 是 一 个 简单 的 二 值 分 类 算法 。 从 两 个 正 态 分 布 (N C1, 1) FON (3, 1) ) 生成 100 个 数 。 所 有 从 正人 态 分 布 N (- 
1, 1) 生成 的 数据 标 为 目标 类 0; 从 正 态 分 布 N (3, 1) 生成 的 数据 标 为 目标 类 1， 模 型 算法 通过 sigmoid 函 数 将 这 毕生 成 的 数据 转换 
成 目标 类 数据 。 换 句 话 讲 ， 模 型 算法 是 sigmoid (x+A) ， 其 中 ，A 是 要 拟 合 的 变量 ， 理 论 上 A=-1。 假 设 ， 两 个 正 态 分 布 的 均值 分 别 
是 m1 和 m2， 则 达到 A 的 取 值 时 ， 它 们 通过 - (m1+m2) /2 转换 成 到 0 等 距 的 值 。 后 面 将 会 在 TensorFlow 中 见证 怎样 取 到 相应 的 值 。 


同时 ， 指 定 一 个 合适 的 学 习 率 对 机 器 学 习 算 法 的 收敛 是 有 帮助 的 。 优 化 器 类 型 也 需要 指定 ， 前 面 的 两 个 例子 会 使 用 标准 梯度 下 降 
法 ， 它 在 TensorFlow 中 的 实现 是 GradientDescentOptimizer () PAX. 


2.6.2 ”动手 做 


这 里 是 回归 算法 例子 : 


1. 导 入 Python 的 数值 计算 模块 ，numpy 和 tensorflow : 


import numpy as np 
import tensorflow as tf 


2. 创 建 计算 图 会 话 : 
sess = tf.Session() 


3. 生 成 数据 ， 创 建 占 位 符 和 变量 A: 


x vals = np.random.normal(1, 0.1, 100) 

y vals = np.repeat (10., 100) 

x data = tf.placeholder(shape-[1], dtype-tf.float32) 

y target = tf.placeholder(shape-[1], dtype-tf.float32) 
A = tf.Variable(tf.random normal (shape=[1] ) ) 


4. 增 加 乘法 操作 : 


my output = tf.mul (x data, A) 


5 FSVOLZ LEM A ERA : 


loss - tf.square(my output - y target) 
6 .在 运行 之 前 ， 需 要 初始 化 变量 : 


init = tf.initialize all variables ( ) 
sess.run(init) 


7. 现 在 声明 变量 的 优化 器 。 大 部 分 优化 器 算法 需要 知道 每 步 迭 代 的 步 长 ， 这 距离 是 由 学 习 率 控制 的 。 如 果 学 习 率 大 小 ， 机 器 学 习 
算法 可 能 耗 时 很 长 才能 收敛 ; 如果 学 习 率 大 大 ， 机 器 学 习 算法 可 能 会 不 收敛 。 相 应 地 导致 梯度 消失 和 梯度 爆炸 问题 。 学 习 率 对 算法 的 
收 合影 响 较 大 ， 我 们 会 在 本 节 结 尾 探讨 。 在 本 节 中 使 用 的 是 标准 梯度 下 降 算 法 ， 但 实际 情况 应 该 因 问 题 而 异 ， 不 同 的 问题 使 用 不 同 的 
优化 器 算法 ， 具 体 见 2.6.5 节 中 Sebastian Ruder 所 写 的 文章 。 


my opt = tf.train.GradientDescentOptimizer(learning rate=0.02) 
train step - my opt.minimize(loss) 


$e xy 


一 选取 最 优 的 学 习 率 的 理论 很 多 ， 但 真正 解决 机 器 学 习 算 法 的 问题 很 难 。2.6.5 节 列 出 了 特定 算法 的 学 习 率 选取 方法 。 


8. 最 后 一 步 是 训练 算法 。 我 们 运 代 101 次 ， 并 且 每 25 次 欠 代 打印 返回 结果 。 选 择 一 个 随机 的 x 和 y， 传 入 计算 图 中 。TensorFlow 将 
目 动 地 计算 损失 ， 调 整 人 A 偏差 来 最 小 化 损失 : 


for i in range(100): 
rand index - np.random.choice (100) 


rand x = [x vals [rand index]] 
rand y = [y vals [rand index] ] 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 
if (i+1)%25==0: 
print('Step #' + str(i«1) + ' A = ' + str(sess.run(A))) 
print('Loss = ' + str(sess.run(loss, feed dict={x data: 


rand x, y target: rand y}))) 
Here is the output: 

Step #25 A = [ 6.23402166] 
Loss = 16.3173 

Step #50 A = [ 8.50733757] 
Loss = 3.56651 

Step 475 A = [ 9.37753201] 
Loss - 3.03149 

Step #100 A = [ 9.80041122] 
Loss = 0.0990248 


9 现在 将 介绍 简单 的 分 类 算法 例子 。 如 果 先 重 置 一 下 前 面 的 TensorFlow 计 算 图 ， 我 们 就 可 以 使 用 相同 的 TensorFlow 脚 本 继续 分 
算法 的 例子 。 我 们 试图 找到 一 个 优化 的 转换 方式 A， 它 可 以 把 两 个 正太 分布 转换 到 原点 ，sigmoid 函 数 将 正 态 分 布 分 割 成 不 同 的 两 


a 


10. 首 先 ， 重 置 计算 图 ， 并 且 重 新 初始 化 变量 : 


from tensorflow.python.framework import ops 
ops.reset default graph() 
sess - tf.Session() 


11. 从 正 态 分 布 (N (C1, 1), N (3, 1) ) Axis. MASE ESSE, AAEE A: 


x vals = np.concatenate((np.random.normal(-1, 1, 50), np.random. 
normal (3, 1, 50))) 
y vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) 


x data = tfi.placeholder(shape=[1], dtype=tf.float32) 
y target - tf.placeholder(shape-[1], dtype-tf.float32) 
A = tf.Variable(tf.random normal (mean=10, shape-[1])) 


-初始 化 变量 A 为 10 附 近 的 值 ， 远 离 理 论 值 -1。 这 样 可 以 清楚 地 显示 算法 是 如 何 从 10 收 敛 为 -1 的 。 


12. 增 加 转换 操作 。 这 里 不 必 封 装 sigmoid 函 数 ， 因 为 损失 函数 中 会 实现 此 功能 : 


my output = tf.add(x data, A) 
13. FPS EAR EREECRR ETC ER AGRIS Mee ZS, ixEBfsFRHexpand dims () 函数 增加 维度 。 下 书 将 讨论 如 何 使 用 批 
量变 量 训练 ， 这 次 还 是 一 次 使 用 一 个 随机 数据 : 
my output expanded = tf.expand dims (my output, 0) 
y target expanded = tf.expand dims(y target, 0) 
14.8] 85 CEA: 
init = tf.initialize all variables () 
sess.run(init) 


15.F8BBPRACERIEA, CEASA —(ClogitsHy3e S NS TRACER, AS AsigmoidA ER, TensorFlowR 
nn.sigmoid cross entropy with logits () 贸 数 实现 所 有 这 些 功 能 ， 需 要 向 它 传 入 指定 的 维度 ， 代 码 如 下 : 


xentropy = tf.nn.sigmoid cross entropy with logits( my output | 
expanded, y target expanded) 


16. 如 前 面 回 归 算 法 的 例子 ， 增 加 一 个 优化 器 函数 让 TensorFlow 知 道 如 何 更 新 和 偏差 变 


my opt = tf.train.GradientDescentOptimizer(0.05) 


train step = my opt.minimize (xentropy) 


17.8, EIS BS UGEEBUEMIRUGATV LACK, THIEDISSUEISEEEA, SERÍV2007XT]EDHRZCRUISEES ABRRIMB:: 


for i in range(1400): 
rand index - np.random.choice(100) 
rand x - [x vals[rand indexl] 
rand y - [y vals[rand indexl] 


sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 
if (1+1)%200==0: 
print('Step #' + str(i«1) + ' A = ' + str(sess.run(A))) 
print('Loss = ' + str(sess.run(xentropy, feed dict={x_ 
data: rand x, y target: rand y}))) 


Step #200 A = [ 3.59597969] 
Loss - [[ 0.00126199]] 
Step #400 A = [ 0.50947344] 
Loss - [[ 0.01149425]] 
Step #600 A = [-0.50994617] 
Loss = [[ 0.14271219]] 
Step #800 A = [-0.76606178] 
Loss = [[ 0.18807337]] 


Step #1000 A = [-0.90859312] 
Loss = [[ 0.02346182]] 
Step #1200 A = [-0.86169094] 
Loss = [[ 0.05427232]] 
Step #1400 A = [-1.08486211] 
Loss = [[ 0.04099189] ] 


2.63 ”工作 原理 


作为 概括 ， 总 结 如 下 几 点 : 
1. 生 成 数据 。 

2. 初 始 化 占 位 符 和 变量 。 
3. 创 建 损失 函数 。 

4. 定 义 一 个 优化 器 算法 。 


5. 最 后 ， 通 过 随机 数据 样本 进行 迭代 ， 更 新 变量 。 


2.64 JERZY 


前 面 涉及 的 优化 器 算法 对 学 习 率 的 选择 较 敏 感 。 下 面 给 出 学 习 率 选择 总 结 : 


小 学 习 率 收敛 慢 ， 但 结果 精确 若 算法 不 稳定 ， 先 降低 学 习 率 
大 学 习 率 结果 不 精确 ， 但 收敛 快 若 算法 收敛 太 慢 ， 可 提高 学 习 率 


有 时 ， 标 准 梯度 下 降 算 法 会 明显 卡 顿 或 者 收敛 变 慢 ， 特 别 是 在 梯度 为 0 的 附近 的 点 。 为 了 解决 此 问题 ，TensorFlow 的 
MomentumOptimizer () 函数 增加 了 一 项 势能 ， 前 一 次 欠 代 过 程 的 梯度 下 降 值 的 倒数 。 

另外 一 个 可 以 改变 的 是 优化 器 的 步 长 ， 理 想 情 况 下 ， 对 于 变化 小 的 变量 使 用 大 步 长 ; 而 变化 迅速 的 变量 使 用 小 步 长 。 这 里 不 会 进 
行 数学 公式 推导 ， 但 给 出 实现 这 种 优点 的 常用 算法 : Adagrad 算 法 。 此 算法 考虑 整个 历史 和 迭代 的 变量 梯度 ，TensorFlow 中 相应 功能 的 
实现 是 AdagradOptimizer () BAX. 

有 时 ， 由 于 Adagrad 算 法 计算 整个 历史 迭代 的 梯度 ， 导 致 梯度 迅速 变 为 0。 解 决 这 个 局 限 性 的 是 Adadelta 算 法 ， 它 限制 使 用 的 友 
代 次 数 。TensorFlow 中 相应 功能 的 实现 是 AdadeltaOptimizer () AŽ 


还 有 一 些 其 他 的 优化 器 算法 实现 ， 请 阅读 TensorFlow 官 方 文 
档 : https://www.tensorflow.org/api_docs/python/train/optimizers, 
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>»  Kingma, D., Jimmy, L. Adam: A Method for Stochastic Optimization. ICLR 2015. 
https://arxiv.org/pdf/1412.6980.pdf 


>» Ruder, S. An Overview of Gradient Descent Optimization Algorithms. 2016. 
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> Zeiler, M. ADADelta: An Adaptive Learning Rate Method. 2012. http://www. 
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2.7 TensorFlow 实 现 随 机 训练 和 批量 计 | 


根据 上 面 描述 的 反 向 传播 算法 ，TensorFlow 更 新 模型 变量 。 它 能 一 次 操作 一 个 数据 点 ， 也 可 以 一 次 操作 大 量 数据 。 一 个 训练 例子 
上 的 操作 可 能 导致 比较 “古怪 ”的 学 习 过 程 ， 但 使 用 大 批量 的 训练 会 造成 计算 成 本 昂贵 。 到 底 选 用 哪 种 训练 类 型 对 机 器 学 习 算 法 的 收 
DIESE 


2.7.1 开始 


为 了 TensorFlow 计 算 变 量 梯度 来 让 反 同 传播 工作 ， 我 们 必须 度量 一 个 或 者 多 个 样本 的 损失 。 与 前 一 节 所 做 的 相似 ， 随 机 训练 会 一 
次 随机 抽样 训练 数据 和 目标 数据 对 完成 训练 。 另 外 一 个 可 选项 是 ,一 次 大 批量 训 | 练 取 平 均 损 失 来 进行 梯度 计算 ， 批量 训练 大 小 可 以 一 
次 上 扩 到 整个 数据 集 。 这 里 将 显示 如 何 扩展 前 面 的 回归 算法 的 例子 一 一 使 用 随机 训练 和 批量 训练 。 


导入 numpy、matplotlib 和 tensorflow 模 块 ， 开 始 一 个 计算 图 会 话 ， 代 码 如 下 : 


import matplotlib as plt 
import numpy as np 
import tensorflow as tf 
sess = tf.Session() 


2.7.2 动手 做 


1. 开 始 声明 批量 大 小 。 批 量 大 小 是 捐 通 过 计算 图 一 次 传 入 多 少 训练 数据 : 


batch size = 20 


2. 接 下 来 ， 声 明 模 型 的 数据 、 占 位 符 和 变量 。 这 里 能 做 的 是 改变 占 位 符 的 形状 ， 占 位 符 有 两 个 维度 : 第 一 个 维度 为 None， 第 二 个 
维度 是 批量 训练 中 的 数据 量 。 我 们 能 显 式 地 设置 维度 为 20， 也 能 设 为 None。 如 第 1 章 所 述 ， 我 们 必须 知道 训练 模型 中 的 维度 ， 这 会 阻 
止 不 合法 的 丰 阵 操作 : 


x vals = np.random.normal(í(1, 0.1, 100) 

y vals = np.repeat(10., 100) 

x data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

y target = tf.placeholder(shape-[None, 1], dtype-tf.float32) 
A = tf.Variable(tf.random normal (shape=[1,1] ) ) 


3 VEIT RE Pipe RF, WiC AERA ESS, HriAfEmatmul () EREXFPRSRBPESSMIIERSETERR: 


my output = tf.matmul(x data, A) 


AMSRARN, AAHS RARE MAGE RLORAN EIB. TfETensorFlowrRiBisreduce mean () ABIES 
现 ， 代 码 如 下 : 


loss = tf.reduce mean(tf.square(my output - y target)) 


5 .声明 优化 器 ， 代 码 如 下 : 
my opt - tf.train.GradientDescentOptimizer (0.02) 
train step = my opt.minimize (loss) 


6. 在 训练 中 通过 循环 迭代 优化 模型 算法 。 这 部 分 代码 与 之 前 不 同 ， 因 为 我 们 想 绘 制 损 失 值 图 与 随机 训练 对 比 ， 所 以 这 里 初始 化 一 
个 列表 每 间隔 5 次 友 代 保存 损失 函数 : 


loss batch = [] 

for i in range(100): 
rand index - np.random.choice(100, size-batch size) 
rand x = np.transpose([x vals[rand indexll) 
rand y = np.transpose([y vals[rand index] ] ) 


sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 
if (1+1)%5==0: 
print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
temp loss = sess.run(loss, feed dict={x data: rand x, y_ 
target: rand y}) 
print ('Loss = ' + str(temp loss) ) 
loss batch.append(temp loss) 


TIA OOK REE. me, ABU BB: 


Step #100 A = [[ 9.86720943]] 
Loss = QO. 


2.7.3 ”工作 原理 


批量 训练 和 随机 训练 的 不 同 忆 处 在 于 它们 的 优化 器 方法 和 收敛 。 找 到 一 个 合适 的 批量 大 小 是 挺 难 的 。 为 了 看 清楚 两 种 训练 方式 的 
收敛 的 不 同 ， 批 量 损失 的 绘图 代码 见 下 文 。 这 里 是 存储 随机 损失 的 代码 ， 接 着 上 一 小 节 的 代码 : 


loss stochastic = [] 
for i in range(100): 
rand index - np.random.choice (100) 
rand x = [x vals[rand indexl] 
rand y = [y vals[rand index] ] 
sess.run(train step, feed dict={x data: rand x, y target: rand y}) 
if (1+1)%5==0: 
print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
temp loss = sess.run(loss, feed dict={x data: rand x, y_ 
target: rand y}) 
print('Loss = ' + str(temp loss)) 
loss stochastic.append(temp loss) 


绘制 回归 算法 的 随机 训练 损失 和 批量 训练 损失 ( 见 图 2-6) ， 代 码 如 下 : 


plt.plot (range(0, 100, 5), loss stochastic, 'b-', labels'Stochastic 
Loss!) 
pilt.plotirange(|0, 100, 5), loss batch, 'r--', labels'Batch' Loss, 


size=20') 


plt.legend(loc='upper right', prop={'size': 11]) 
plt.show() 


— Stochastic Loss 
- Batch Loss, size=20 
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图 2-6  i&4€100:& 84 cpu] AAR Ae do VL ERA A (批量 大 小 为 20) 图 。 注 意 ， 批 量 训练 损失 更 平滑 ， 随 机 训练 损失 更 不 规则 


2.14 JERZY 


训练 类 型 RO 
随机 训练 脱离 局 部 最 4 一 般 需 更 多 次 迭代 才 收 敛 


批量 训练 快速 得 到 最 小 损失 耗费 更 多 计算 资源 


2.8 TensorFlow 实 现 创 建 分 类 器 


在 本 节 中 ， 将 结合 前 面 所 有 的 知识 点 创建 一 个 iris 数 据 集 的 分 类 器 。 


2.8.1 开始 


iris 数 据 集 详 细 细节 见 第 1 章 。 加 载 样本 数据 集 ， 实 现 一 个 简单 的 二 值 分 类 器 来 预测 一 打 伦 是 否 为 山 营 尾 。iris 数 据 集 有 三 类 伦 ， 但 


这 里 仅 预 测 是 否 是 山 旁 尾 。 导 入 iris 数 据 集 和 工具 库 ， 相 应 地 对 原 数 据 集 进 行 转换 。 


2.8.2 ”动手 做 
1. 导 入 相应 的 工具 库 ， 初 始 化 计算 图 。 注 意 ， 这 里 导入 matplotlib 模 块 是 为 了 后 续 绘制 结果 : 


import matplotlib.pyplot as plt 
import numpy as np 


from sklearn import datasets 
import tensorflow as tf 
sess = tf.Session() 


2S) jirisstes, TRISEMUERG7JU SERRE MREE SERO. A Fii., RIKENA, ARG 
其 他 物种 标记 为 0。 本 次 训练 只 使 用 两 种 特征 : CREA, JXPST RHIECEX-valueBSs8 — A RUSS OA) : 


iris = datasets.load iris() 
binary target = np.array([1. if x--0 else 0. for x in iris. 
target]) 


iris 2d = np.array([[x[2], x[3]] for x in iris.datal) 
3. 声 明 批 量 训 练 大 小 、 数 据 占 位 符 和 模型 变量 。 注 意 ， 数 据 占 位 符 的 第 一 维度 设 为 None: 


batch size = 20 

x1 data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 
x2 data - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
A = tf.Variable(tf.random normal(shape-[1, 1])) 

le tf.Variable(tf.random normal(shape-[1, 1])) 


Meri 意 ， 通 过 指定 dtype=tf.float32 降 低 float 的 字 节 数 ， 可 以 提高 算法 的 性 能 。 

4. 定 义 线性 模型 。 线 性 模型 的 表达 式 为 : x2=x1*A+b。 如 果 找到 的 数据 点 在 直线 以 上 ， 则 将 数据 点 代入 x2-x1*A-b 计 算出 的 结果 
A; 同 理 找到 的 数据 点 在 直线 以 下 ， 则 将 数据 点 代入 x2-x1*A-b 计 算出 的 结果 小 于 0。 将 公式 x2-x1*A-b 传 入 sigmoid 函 数 ， 然 后 预 
测 结 果 1 或 者 0。TensorFlow 有 内 建 的 sigmoid 损 失 函 数 ， 所 以 这 里 仅仅 需要 定义 模型 输出 即 可 ， 代 码 如 下 : 

my mult = tf.matmul(x2 data, A) 
my add = tf.add (my mult, b) 
my output = tf.sub(xl1 data, my add) 


5. 增 加 TensorFlow 的 sigmoid 交 叉 粒 损失 函数 sigmoid cross entropy with logits () ， 代 码 如 下 : 


xentropy = tf.nn.sigmoid cross entropy with logits(my output, y 
target) 


6.PRBBUUM,SRIA TA, MEIRA. 18PE2E2J38730.05, (SAF: 


my opt = tf.train.GradientDescentOptimizer (0.05) 
train step = my opt.minimize (xentropy) 


7. 创 建 一 个 变量 初始 化 操作 ， 然 后 让 TensorFlow 执 行 它 ， 代 码 如 下 : 


init = tf.initialize all variables() 
sess.run(init) 


8. 现 在 迭代 100 次 训练 线性 模型 。 传 入 三 种 数据 : Tae, (REA. 8R20070X1VIEDUSEEMB, (ASR: 


for i in range(1000): 


rand index = np.random.choice(len(iris 2d), size=batch size) 
rand x - iris 2d[rand index] 

rand x1 = np.array([[x[0]] for x in rand xl) 

rand x2 = np.array([[x[1]] for x in rand xl) 


rand y = np.array([ly] for y in binary target [rand indexll) 
sess.run(train step, feed dict={xl data: rand x1, x2 data: 
rand x2, y target: rand y}) 
if (i-41)$200-220: 
print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + 
' b= ' + str(sess.run(b) ) ) 
Step #200 A = [[ 8.67285347]], b = [[-3.47147632] ] 
Step #400 A = [[ 10.25393486]], b = [[-4.62928772] ] 
Step #600 A = [[ 11.152668]], b [[-5.4077611]] 
Step #800 A = [[ 11.81016064]], b = [[-5.96689034]] 
Step #1000 A = [[ 12.41202831]], b = [[-6.34769201]] 


9. 下 面 的 命令 抽取 模型 变量 并 绘图 ， 结 果 图 在 下 一 小 节 展 示 ， 代 码 如 下 : 


[[slope]] = sess.run(A) 
[[intercept]] = sess.run(b) 
x - np.linspace(0, 3, num-50) 
ablineValues = [] 
LOL X XA x: 
ablineValues.append(slope*i-«intercept) 
setosa x - [a[1] for i,a in enumerate(iris 2d) if binary 
target [i] ==1] 
setosa y = [a[0] for 1,a in enumerate(iris 2d) if binary _ 
target [1] ==1] 
non setosa x = [a[l] for i,a in enumerate(iris 2d) if binary _ 
target [1] ==0] 
non setosa y = [a[0] for i,a in enumerate (iris 2d) if binary | 
target [1] ==0] 
plt .plot (setosa x, setosa y, 'rx', ms-10, mew-2, label='setosa''') 


( 
plt.plot (non setosa x, non setosa y, 'ro', label-'Non-setosa') 
plt.plot(x, ablineValues, 'b-') 
plt.xlim([0.0, 2.7]) 
plt.vlimt([Os0, 7.1]] 
plt.suptitle('Linear' Separator For I.setosa', fontsize-20) 


plt.xlabel('Petal Length' ) 
plt.ylabel('Petal Width') 
plt.legend(loc='lower right') 
plt.show() 


2.8.3 ”工作 原理 


我 们 的 目的 是 利用 花 斩 长 度 和 人 花 泊 宽 度 的 特征 在 山 莺 尾 与 其 他 物种 间 拟 合 一 条 直线。 绘制 所 有 的 数据 点 和 拟 合 结果 ， 将 会 看 到 图 
2-7, 


Linear Separator For l.setosa 


Petal Width 
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2.8.4 JERZY 


当前 用 一 条 直 续 分 割 两 类 目标 并 不 是 最 好 的 模型 。 第 4 章 将 会 介绍 一 种 更 好 的 方法 来 分 割 两 类 目标 。 


285 ”参考 


关于 iris 数 据 集 的 介绍 ， 可 以 看 维基 百科 : https://en.wikipedia.org/wiki/lris flower data set。 或 者 Scikit Learn 的 iris 数 据 


集 : http://scikit-learn.org/stable/auto examples/datasets/plot iris dataset.html, 


2.9 TensorFlow 实 现 模型 评估 


学 完 如何 使 用 TensorFlow 训 练 回 归 算 法 和 分 类 算法 ， 我 们 需要 评估 模型 预测 值 来 评估 训练 的 好 坏 。 


2.9.1 开始 

模型 评估 是 非常 重要 的 ， 随 后 的 每 个 模型 都 有 模型 评估 方式 。 使 用 TensorFlow 时 ， 需 要 把 模型 评估 加 入 到 计算 图 中 ， 然 后 在 模型 
训练 完 后 调用 模型 评估 。 

在 训练 模型 过 程 中 ， 模 型 评估 能 洞察 模型 算法 ， 给 出 提示 信息 来 调试 、 提 高 或 者 改变 整个 模型 。 但 是 在 模型 训练 中 并 不 是 总 需要 
模型 评估 ， 我 们 将 展示 如 何在 回归 算法 和 分 类 算法 中 使 用 它 。 

训练 模型 之 后 ， 需 要 定量 评估 模型 的 性 能 如 何 。 在 理想 情况 下 ， 评 估 模 型 需要 一 个 训练 数据 集 和 测试 数据 集 ， 有 时 甚至 需要 一 个 
验证 数据 集 。 


想 评估 一 个 模型 时 融 得 使 用 大 批量 数据 点 。 如 果 完 成 批量 训练 ， 我 们 可 以 重用 模型 来 预测 批量 数据 点 。 但 是 如 果 要 完成 随机 训 
练 ， 束 不 得 不 创建 单独 的 评估 器 来 处 理 批量 数据 点 。 


NON l 
一 加 果 在 损失 函数 中 使 用 的 模型 输出 结果 经 过 转换 操作 ， 例 如 ，sigmoid_ctoss_enttopy_with_losits () 函数 ， 为 了 精确 计算 预测 
结果 ， 别 忘 了 在 模型 评估 中 也 要 进行 转换 操作 。 


2.9.2 ”动手 做 
回归 算法 模型 用 来 预测 连续 数值 型 ， 其 目标 不 是 分 类 值 而 是 数字 。 为 了 评估 这 些 回归 预测 值 是 否 与 实际 目标 相符 ,我 们 需要 度量 
两 者 间 的 距离 。 这 里 将 重 写本 章 上 一 小 节 的 回归 算法 的 例子 ， 打 印 训练 过 程 中 的 损失 ， 最 终 评估 模型 损失 . 


分 类 算法 模型 基于 数值 型 输入 预测 分 类 值 ， 实 际 目 标 是 1 和 0 的 序列 。 我 们 需要 度量 预测 值 与 真实 值 之 间 的 距离 。 分 类 算法 模型 的 
损失 函数 一 般 不 容易 解释 模型 好 坏 ， 所 以 通 剃 情况 是 看 下 准确 预测 分 类 的 结果 的 百分比 。 这 次 将 使 用 本 章 上 一 小 节 的 分 类 算法 的 例 
fe 


299.3 ”工作 原理 


首先 ， 将 展示 如 何 评 估 简 单 的 回归 算法 模型 ， 其 拟 合 常数 乘法 ， 目 标 值 是 10， 步 又 如 下 : 


1. 加 载 所 需 的 编程 库 ， 创 建 计算 图 、 数 据 集 、 变 量 和 占 位 待 。 创 建 完 数据 后 ， 将 它们 随机 分 割 成 训练 数据 集 和 测试 数据 集 。 不 管 
算法 模型 预测 的 如 何 ， 我 们 都 需要 测试 算法 模型 ， 这 点 相当 重要 。 在 训练 数据 和 测试 数据 上 都 进行 模型 评估 ， 以 搞 清楚 模型 是 否 过 拟 
合 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

sess - tf.Session() 

x vals = np.random.normal(í(1, 0.1, 100) 

y vals = np.repeat(10., 100) 

x data = tf.placeholder(shapes[None, 1], dtype=tf.float32) 

y target = tf.placeholder(shape-s[None, 1], dtype=tf.float32) 
batch size - 25 


train indices - np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 

test indices - np.array(list(set(range(len(x vals))) - set(train 
indices))) 


x vals train - x vals[train indices] 

x vals test - x vals[test indices] 

y vals train - y vals[train indices] 

y vals test - y vals[test indices] 

A = tf.Variable(tf.random normal (shape=[1,1]) ) 


2. 声 明 算 法 模型 、 损 失 阔 数 和 优化 器 算法 。 初 始 化 模型 变量 A， 代 码 如 下 : 


my output = tf.matmul(x data, A) 
loss - tf.reduce mean(tf.square(my output - y target)) 


init - tf.initialize all variables() 
sess.run(init) 

my opt = tf.train.GradientDescentOptimizer (0.02) 
train step = my opt.minimize(loss) 


3. LACE—EEXETVVIIERS SRI, PURBRITT: 


for i in range(100): 
rand index = np.random.choice(len(x vals train), size-batch _ 
size) 
rand x = np.transpose([x vals train[rand index] ] ) 
rand y = np.transpose([y vals train[rand index] ] ) 
sess.run(train step, feed dict={x data: rand x, y target: 


rand y}) 
if (1i1+1)%25==0: 
print('Step #' + str(i-«1) + ' A = ' + str(sess.run(A))) 
print('Loss = ' + str(sess.run(loss, feed dict={x data: 


rand x, y target: rand y}))) 
Step #25 A = [[ 6.39879179] ] 
Loss = 13.7903 

Step 450A - [[ 8.64770794]] 
Loss = 2.53685 

Step #75 A = [[ 9.40029907] ] 
Loss = 0.818259 

Step #100 A = [[ 9.6809473]] 
Loss = 1.10908 


AWE, ITRE, FTES TMi HE Sey RAM SEPARA, (HSM TF: 


mse test = sess.run(loss, feed dict={x data: np.transpose([x vals 
test]), y target: np.transpose([y vals test])]) 

mse train = sess.run(loss, feed dict={x data: np.transpose([x 
vals train]), y target: np.transpose([y vals train])]) 

print('MSE' on test:' + str(np.round(mse test, 2))) 

print('MSE' on train:' + str(np.round(mse train, 2))) 


MSE on test:1.35 
MSE on train:0.88 


5. 对 于 分 类 模型 的 例子 ， 与 前 面 的 例子 类 似 。 创 建 准确 率 函数 (accuracy function) ， 分 别 调用 sigmoid 来 测试 分 类 是 否 正 确 。 
6. 重 新 加 载 计算 图 ， 创 建 数据 集 、 变 量 和 占 位 待 。 记 住 ， 分 割 数 据 集 和 目标 成 为 训练 集 和 测试 集 ， 代 码 如 下 : 


from tensorflow.python.framework import ops 
ops.reset default graph() 

sess = tf.Session() 

batch size = 25 

x vals = np.concatenate((np.random.normal(-1, 1, 50), np.random. 
normal(2, 1, 50))) 

y vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) 
x data = tf.placeholder(shape-[1, None], dtype-tf.float32) 

y target - tf.placeholder(shape-[1, None], dtype-tf.float32) 


train indices 


- np.random.choice(len(x vals), 


vals)*0.8), replace-False) 


test indices 
indices))) 


x vals train 
x vals test - 
y vals train 
y vals test = 


A = tf.Variable(tf.random normal (mean=10, 


7. 在 计算 图 中 ， 增 加 模型 和 损失 函数 ， 初 始 化 变量 ， 


my output = 


init = tf.initialize all variables() 


np.array(list(set(range(len(x vals))) 


x vals[train indices] 
x vals[test indices] 

y vals[train indices] 
y vals[test indices] 


tf.add(x data, A) 


sess.run(init) 


并 创建 优化 器 ， 代 码 如 下 : 


shape=[1] ) ) 


round (len (x_ 


- set (train 


xentropy = tf.reduce mean(tf.nn.sigmoid cross entropy with _ 
logits(my output, y target) ) 


my opt = tf.train.GradientDescentOptimizer (0.05) 


train step = 


my opt.minimize (xentropy) 


8. 现 在 进行 和 迭代 训练 ， 代 码 如 下 : 


for i in range(1800): 


rand index - np.random.choice(len(x vals train), size-batch 
Size) 

rand x = [x vals train[rand index] ] 

rand y = [y vals train[rand index] |] 


sess.run(train step, feed dict-[x data: rand x, y target: 
rand y}) 

if (1+1)%200==0: 

print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
print ('Loss = ' + str(sess.run(xentropy, feed dict={x_ 

data: rand x, y target: rand y}))) 
Step #200 A = [ 6.64970636] 
Loss = 3.39434 
Step #400 A = [ 2.2884655] 
Loss - 0.456173 
Step #600 A = [ 0.29109824] 
Loss = 0.312162 
Step #800 A = [-0.20045301] 
Loss = 0.241349 
Step #1000 A = [-0.33634067] 
Loss = 0.376786 
Step #1200 A = [-0.36866501] 
Loss = 0.271654 
Step #1400 A = [-0.3727718] 
Loss = 0.294866 
Step #1600 A = [-0.39153299] 
Loss = 0.202275 
Step #1800 A = [-0.36630616] 
Loss = 0.358463 


9. 为 了 评估 训练 模型 ， 我 们 创建 预测 操作 。 用 squeeze () 上 数 封 妆 预测 操作 ， 使 得 预测 值 和 目标 值 有 相同 的 维度 。 然 后 用 
equal () 函数 检测 是 否 相等 ， 把 得 到 的 true 或 false 的 boolean 型 张 量 转化 成 float32 型 ， 再 对 其 取 平 均值 ， 得 到 一 个 准确 度 值 。 我 们 
将 用 这 个 函数 评估 训练 模型 和 测试 模型 ， 代 码 如 下 : 


y prediction = tf.squeeze(tf.round(tf.nn.sigmoid(tf.add(x data, 
A) ) ) ) 

correct prediction = tf.equal(y prediction, y target) 

accuracy - tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
acc value test = sess.run(accuracy, feed dict={x data: [x vals 
test], y target: [y vals test]]) 

acc value train = sess.run(accuracy, feed dict={x data: [x vals 
train], y target: [y vals train]]) 

print ('Accuracy' on train set: ' + str(acc value train)) 

print ('Accuracy' on test set: ' + str(acc value test)) 

Accuracy on train set: 0.925 

Accuracy on test set: 0.95 


10. 模 型 训练 结果 ， 比 如 准确 度 、MSE 等 ， 将 帮助 我 们 评估 机 器 学 习 模型 。 因 为 这 是 一 维 模型 ， 能 很 容易 地 绘制 模型 和 数据 点 。 用 
matplotlib 绘 制 两 个 分 开 的 直方 图 来 可 视 化 机 器 学 习 模型 和 数据 点 ( 见 图 2-8) : 


A result = sess.run(A) 

bins - np.linspace(-5, 5, 50) 

plt.hist (x vals[0:50], bins, alpha=0.5, label-'N'(-1,1)', 
color='white') 

plt.hist (x vals[50:100], bins[0:50], alpha=0.5, label-'N'(2,1)', 
color='red') 

plt.plot((A result, A result), (0, 8), 'k--', linewidth-3, 
label='A = '+ str(np.round(A result, 2))) 
plt.legend(loc='upper right') 

plt.title('Binary' Classifier, Accuracy=' + str(np.round(acc_ 
value, 2))) 

plt.show() 


Binary Classifier, Accuracy=0.95 


A = [ 0.50999999] 


Gs N(2.1) 


0 2 4 6 


图 2-8 ”模型 A 和 数据 点 的 可 视 化 。 两 个 正 态 分 布 (均值 分 别 为 -1 和 2) ， 理 论 上 的 最 佳 分 割 点 是 0.5， 这 里 模型 结果 值 (0.50999999) dE 


常 接近 理论 值 0.5 


第 3 草 ”基于 TensorFlow 的 线性 回归 


本 章 将 介绍 TensorFlow 是 如 何 工作 的 ， 以 及 如 何 访 问 本 书 的 数据 集 和 补充 学习 人 资源。 学 完 本 草 将 掌握 以 下 知识 点 : 
- H TensotFlow Riž 4E pE 
- J| TensorFlow 3: IL 4E E > AR 
: 用 TensorFlow 实 现 线 性 回归 
- 理解 线性 回归 中 的 损失 函数 
- 用 TensofFlow 实 现 戴 明 回归 (Deming Regression) 
- 用 TensorFlow 实 现 Lasso 回 归 和 上 岭 回归 (Ridge Regression) 
- 用 TensorFlow 实 现 弹 性 网 络 回归 (Elastic Net Regression) 


- Jl] TensortFlow 3z 3,39 44 re] ya 


3.1 线性 回归 介绍 


线性 回归 算法 是 统计 分 析 、 机 器 学 习 和 科学 计算 中 最 重要 的 算法 之 一 ， 也 是 最 常 使 用 的 算法 之 一 ， 所 以 需要 理解 其 是 如 何 实现 
的 ， 以 及 线性 回归 算法 的 各 种 优点 。 相 对 于 许多 其 他 算法 来 讲 ， 线 性 回归 算法 是 最 易 解 释 的 。 以 每 个 特征 的 数值 直接 代表 该 特征 对 目 
标 值 或 者 因 变 量 的 影响 。 本 章 将 揭晓 线性 回归 算法 的 经 典 实现 ， 然 后 讲解 其 在 TensorFlow 中 的 实现 。 记 住 ， 本 书 所 有 的 源 代码 都 可 以 
在 GitHub 中 访问 ， 网 址 为 : https://github.com/nfmcclure/tensorflow_cookbook, 


3.2 FdTensorFlowzkizi Bp 


AN HE FAT ensorFlowskiFt FRSA 72:888 — £x [TU [Reli , 


3.2.1 开始 


线性 回归 算法 能 表示 为 矩阵 计算 ，Ax=b。 这 里 要 解决 的 是 用 矩阵 x 来 求解 系数 。 注 意 ， 如 果 观 测 和 矩阵 不 是 方 阵 ， 那 求解 出 的 矩阵 x 
为 x= (ATA) -1ATb。 为 了 更 直观 地 展示 这 种 情况 ， 我 们 将 生成 二 维 数 据 ， 用 TensorFlow 来 求解 ， 然 后 绘制 最 终结 果 ( 见 图 3-1) 。 


3.2.2 动手 做 


1. 导 入 必要 的 编程 库 ， 初 始 化 计算 图 ， 并 生成 数据 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

sess - tf.Session() 

x vals - np.linspace(0, 10, 100) 

y vals = x vals + np.random.normal(0, 1, 100) 


2. BAKA AAT ASHES. BEARR, Hx vals column 和 ones columnBS 2f, ?AJRLABPEy vals 创 建 b 矩 阵 ， 
代码 如 下 : 


x vals column = np.transpose(np.matrix(x vals)) 

ones column = np.transpose(np.matrix(np.repeat(1, 100))) 
A - np.column stack((x vals column, ones column)) 

b = np.transpose(np.matrix(y vals) ) 


3 ISAF ROK, TSMR: 


tf.constant (A) 


tf.constant (b) 


A tensor 


b tensor 


4. 现 在 ， 使 用 TensorFlow 的 tf.matrix inverse () 方法 ， 代 码 如 下 : 


tA A = tf.matmul(tf.transpose(A tensor), A tensor) 
tA A inv - tf.matrix inverse(tA A) 

product - tf.matmul(tA A inv, tf.transpose(A tensor)) 
solution = tf.matmul (product, b tensor) 

solution eval = sess.run(solution) 


5. 从 解 中 抽取 系数 、 斜 率 和 y 截 距 y-intercept， 代 码 如 下 : 


slope = solution eval[0] [0] 

y intercept = solution eval [1] [0] 

print ('slope: ' + str(slope) ) 

print ('y' intercept: ' + str(y intercept) ) 


slope: 0.955707151739 
y intercept: 0.174366829314 


best fit = [] 
for i in x vals: 
best fit.append(slope*i+y intercept) 
plt.plot(x vals, y vals, 'o', label='Data') 
plt.plot(x vals, best fit, 'r-', label-'Best' fit line', 
linewidth-23) 
plt.legend(loc='upper left') 
plt.show() 


e @ Data 
—— Best fit line 
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图 3-1 3&8 ib AERE GE SP 77 GRE ADU EAR CAR s. 


32.3 ”工作 原理 


与 本 书 的 大 部 分 章节 不 一 样 的 是 ， 这 里 的 解决 方法 是 通过 矩阵 操作 直接 求解 结果 。 大 部 分 TensorFlow 算 法 是 通过 运 代 训 练 实现 
的 ， 利 用 反 向 传播 自动 更 新 模型 变量 。 这 里 通过 实现 数据 直接 求解 的 方法 拟 合 模型 ， 仅 仪 是 为 了 说 明 TensorFlow 的 灵活 用 法 。 


3.3 ”用 TensorFlow 实 现 和 矩阵 分 解 


本 书 将 用 TensorFlow 为 线性 回归 算法 实现 算 阵 分 解 。 特 别 地 ， 我 们 会 使 用 Cholesky 和 矩阵 分 解法 ， 相 关 的 函数 已 在 TensorFlow 中 
实现 。 


3.3.1 开始 


在 上 一 小 节 中 实现 的 求 逆 矩 阵 的 万 法 在 大 部 分 情况 下 是 低 效 率 的 ， 特 别 地 ， 当 算 阵 非常 大 时 效率 更 低 。 另 外 一 种 实现 方法 是 和 矩阵 
分 解 ， 此 方法 使 用 TensorFlow 内 建 的 Cholesky 息 阵 分 解法 。 用 户 对 分 解 一 个 矩阵 为 多 个 算 阵 的 方法 感 兴趣 的 原因 是 ， 结 果 算 阵 的 特 
性 使 得 其 在 应 用 中 更 高 效 。Cholesky 和 矩阵 分 解法 把 一 个 矩阵 分 解 为 上 三 角 和 矩阵 和 下 三 角 和 矩阵 ，L 和 L" (LOLS AREAS) 。 求 解 
Ax=b， 改 写成 LL'x=b。 首 先 求解 Ly=b， 然 后 求解 Lx=y 得 到 系数 算 阵 x。 


3.3.2 ”动手 做 
1. 导 入 编程 库 ， 初 始 化 计算 图 ， 生 成 数据 集 。 接 着 获取 算 阵 A 和 b， 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 


import tensorflow as tf 

from tensorflow.python.framework import ops 
ops.reset default graph() 

sess - tf.Session() 

x vals - np.linspace(0, 10, 100) 

y vals = x vals + np.random.normal(í(0, 1, 100) 

x vals column - np.transpose(np.matrix(x vals)) 
ones column = np.transpose(np.matrix(np.repeat(1, 100))) 
A = np.column stack((x vals column, ones column) ) 
b = np.transpose(np.matrix(y vals) ) 

A tensor = tf.constant (A) 

b tensor = tf.constant (b) 


2. 找 到 方 阵 的 Cholesky 和 矩阵 分 解 ，AIA: 


= 注意 ， TensotFlow 的 cholesky () :& X D5UBUR EI 4E PEA AER FASE, B] 7) .E.E.8 4ERE RT E fA 4E RE 06 HEE. 


tA A - tf.matmul(tf.transpose(A tensor), A tensor) 
L = tf.cholesky(tA A) 

tA b = tf.matmul(tf.transpose(A tensor), b) 

soll - tf.matrix solve(L, tA b) 

sol2 = tf.matrix solve(tf.transpose(L), soll) 


3. 抽 取 系 数 : 


solution eval = sess.run(sol2) 


slope = solution eval [0] [0] 

y intercept = solution eval[1] [0] 
print('slope: ' + str(slope) ) 

print ('y' intercept: ' + str(y intercept) ) 


Slope: 0.956117676145 
y_intercept: 0.136575513864 


best fit = [] 
for 1 in x vals: 
best fit.append(slope*i+y intercept) 
plt.plot(x vals, y vals, 'o', label='Data') 
plt.plot(x vals, best fit, 'r-', label='Best' fit line', 
linewidth=3) 
plt.legend(loc='upper left') 
plt.show() 


3.8.5 ”工作 原理 


正如 你 所 看 到 的 ， 最 终 求 解 的 结果 与 前 一 小 书 的 相似 。 记 住 ， 通 过 分 解 矩 阵 的 方法 求解 有 时 更 高 效 并 且 数 值 稳定 ( 见 图 3-2) 。 


le è Data 
| — Best fit line 
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图 3-2 ”通过 敌阵 分 解 求 解 拟 合 直线 和 数据 点 


3.4 用 TensorFlow 实 现 线性 回 上 归 算 法 


3.4.1 开始 
本 节 将 遍历 批量 数据 点 并 让 TensorFlow 更 新 斜 庚 和 y 截 距 。 这 次 将 使 用 Scikit Learn 的 内 建 iris 数 据 集 。 特 别 地 ， 我 们 将 用 数据 点 


OETA HRE, WERKE) 找到 最 优 直 线 。 选 择 这 两 种 特征 是 因为 它们 具有 线性 关系， 在 后 续 结果 中 将 会 看 到 。 下 一 小 
五 将 讲解 不 同 损失 函数 的 影响 ， 本 节 将 使 用 L2 正 则 损失 函数 。 


34 用 TensorFlow 实 现 线性 回归 算法 


3.4.1 开始 


本 节 将 遍历 批量 数据 点 并 让 TensorFlow 更 新 斜率 和 y 截 距 。 这 次 将 使 用 Scikit Learn 的 内 建 iris 数 据 集 。 特 别 地 ， 我 们 将 用 数据 点 
(MERRE, WERKE) 找到 最 优 直 线 。 选 择 这 两 种 特征 是 因为 它们 具有 线性 关系， 在 后 续 结果 中 将 会 看 到 。 下 一 小 
五 将 讲解 不 同 损失 函数 的 影响 ， 本 节 将 使 用 L2 正 则 损失 函数 。 


3.4.2 ”动手 做 


1. 导 入 必要 的 编程 库 ,创建 计算 图 ， 加 载 数据 集 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from sklearn import datasets 

from tensorflow.python.framework import ops 
Ops.reset default graph() 

sess - tf.Session() 


iris - datasets.load iris() 
x vals = np.array([x[3] for x in iris.data]) 
y vals = np.array([yl0] for y in iris.datal) 


2. 声 明 学 习 率 、 批 量 大 小 、 占 位 竺 和 模型 变量 ， 代 码 如 下 : 


learning rate = 0.05 
batch size = 25 
x data - tf.placeholder(shape-[None, 1], dtype-tf.float32) 


y target - tf.placeholder(shape-|None, 1|, dtype-tf.float32) 
A = tf.Variable(tf.random normal (shape=[1,1])) 
b = tf.Variable(tf.random normal (shape=[1,1])) 


3. 增 加 线性 模型 ，y=Ax+b。 代 码 如 下 : 


model output = tf.add(tf.matmul (x data, A), b) 


4. 下 一 步 ， 声 明 L2 损 失 遂 数 ， 其 为 批量 损失 的 平均 值 。 初 始 化 变量 ， 声 明 优 化 器 。 注 意 ， 学 习 率 设 为 0.05。 代 码 如 下 : 


loss tf.reduce mean(tf.square(y target - model output)) 
init - tf.global variables initializer() 


sess.run(init) 
my opt - tf.train.GradientDescentOptimizer(learning rate) 


train step - my opt.minimize(loss) 


SUE DIAN, TPOERSSUIEEERUIEER dS AT REIS. ET VT007R, B25 RA RS SRA. TERR, KER 
JENA B, SAAT RAT. TSMR: 


loss vec = [] 
for i in range(100): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x = np.transpose([x vals [rand_index] ] ) 
rand y = np.transpose([y vals [rand_index] ] ) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 
temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 
loss vec.append(temp loss) 
if (1+1)%25==0: 


print('Step #' + str(i«1) + ' A = ' + str(sess.run(A)) + 
b = ' + str(sess.run(b) )) 
print ('Loss = ''' + str(temp loss) } 


Step #25 A = [[ 2.17270374]] b = [[ 2.85338426] ] 
Loss = 1.08116 

Step #50 A = [[ 1.70683455]] b 
Loss = 0.796941 

Step #75 A = [[ 1.32762754]] b 
Loss = 0.466912 

Step #100 A = [[ 1.15968263]] b = [[ 4.38497639]] 
Loss = 0.281003 


[[ 3.59916329] ] 


[[ 4.08189011]] 


6. 抽 取 系 数 ， 创 建 最 佳 拟 合 直线 。 代 码 如 下 : 


[slope] = sess.run(A) 
[y intercept] = sess.run(b) 
best fit = [| 
for i in x vals: 
best fit.append(slope*i+y intercept) 


7. 这 里 将 绘制 两 幅 图 。 第 一 幅 图 ( 见 图 3-3) 是 拟 合 的 直线 ; 第 二 幅 图 ( 见 图 3-4) REiE(VTOOXBSL2IERURAEBSEN, TURBAT: 


plt.plot(x vals, y vals, 'o', label='Data Points') 
plt.plot(x vals, best fit, 'r-', label-'Best' fit line', 
linewidth-3) 

plt.legend(loc='upper left') 

plt.title('Sepal' Length vs Pedal Width!) 
plt.xlabel('Pedal Width') 

plt.ylabel('Sepal Length') 

plt.show() 

plt.plot(loss vec, 'k-') 

plt.title('L2' Loss per Generation!) 

plt.xlabel ('Generation' ) 

plt.ylabel('L2 Loss') 

plt.show() 


Sepal Length vs Pedal Width 


e @ Data Points 
=— Best fit line 
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图 3-3 itis 数 据 集中 的 数据 点 (FOI KE Fe (6 3052). 和 TensorFlow 拟 合 的 直线 


L2 Loss per Generation 


L2 Loss 


0 20 40 6D 80 ~ 100 
(Generation 


图 3-4 IL2 正 则 损失 。 注 意 ， 损 失 函 数 中 的 抖动 ， 批 量 大 小 越 大 抖动 会 减少 ; 批量 大 小 越 小 持 动 会 增 大 


& 一 这 里 很 容易 看 出 算法 模型 是 过 拟 合 还 是 欠 拟 合 。 将 数据 集 分 割 成 测试 数据 集 和 训练 数据 集 ， 如 果 训 练 数 据 集 的 准确 度 更 大 


而 测试 数据 集 准 确 度 更 低 ， 那 么 该 拟 合 为 过 拟 合 ; 如 果 在 测试 数据 集 和 训练 数据 集 上 的 准确 度 都 一 直 在 增加 ， 那 么 该 拟 合 是 欠 拟 合 


需要 继续 训练 。 


3.43 ”工作 原理 


最 优 直 线 并 不 能 保证 是 最 佳 拟 合 的 直线 。 最 佳 拟 合 直线 的 收敛 依赖 迭代 次 数 、 批 量 大 小 、 学 习 率 和 损失 消 数 。 最 好 时 刻 观察 损失 
浮 数 ， 它 能 帮助 我 们 进行 问题 定位 或 者 超 参 数 调整 。 


3.5 ”理解 线性 回归 中 的 损失 负数 


理解 各 种 损失 函数 在 算法 收敛 的 影响 是 非 音 重 要 的 。 这 里 将 展示 L1 正 则 和 L2 正 则 损失 阔 数 对 线性 回归 算法 收敛 的 影响 。 


3.5.1 ”开始 


这 次 继续 使 用 上 一 节 中 的 iris 数 据 集 ， 但 是 ， 我 们 改变 损失 函数 和 学 习 率 来 观察 收敛 性 的 变化 。 


3.5.2 ”动手 做 


1. 除 了 损失 函数 外 ， 程 序 的 开始 与 以 往 一 样 ， 导 入 必要 的 编程 库 ， 创 建 一 个 会 话 ， 加 载 数据 ， 创 建 占 位 符 ， 定 义 变量 和 模型 。 我 
们 将 抽出 学 习 率 和 模型 迭代 次 数 ， 以 便 展 示 调 整 这 些 参数 的 影响 。 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


sess - tf.Session() 
iris - datasets.load iris() 
x vals = np.array([x[3] for x in iris.datal) 


y vals = np.array([y[0] for y in iris.data] ) 

batch size = 25 

learning rate = 0.1 # Will not converge with learning rate at 0.4 
iterations - 50 

x data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

y target = tf.placeholder(shapes[None, 1], dtype=tf.float32) 

A = tf.Variable(tf.random normal (shape=[1,1]) ) 

b = tf.Variable(tf.random normal (shape=[1,1]) ) 

model output - tf.add(tf.matmul(x data, A), b) 


2FRAROLAL 1 IEMUGRAREL, RIBA T : 
loss l1 = tf.reduce mean(tf.abs(y target - model output) ) 


BY 


注意 ， 通 过 代入 式 子 tftfeduce_mean (tfsquare (y_target-model_output) ) 可 以 改 回 L2 正 则 损失 函数 。 


3. 现 在 继续 切 始 化 变量 ， 声 明 优 化 器 ， 亿 历 达 代 训练 。 注 意 ， 为 了 度量 收 线 性 ， 每 次 迭代 都 会 保存 损失 值 。 代 码 如 下 : 


init = tf.global variables initializer() 
sess.run(init) 
my opt l1 = tf.train.GradientDescentOptimizer(learning rate) 
train step 11 = my opt ll.minimize(loss 11) 
loss vec 11 = [] 
for i in range (iterations): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x = np.transpose([x vals[rand index]l) 
1) 
sess.run(train step 11, feed dict={x data: rand x, y target: 
rand y]) 
temp loss 11 = sess.run(loss 11, feed dict={x data: rand x, 
y target: rand y]) 


rand y - np.transpose([y vals[rand index] 


loss vec ll.append(temp loss 11) 
lf (141)$25--0:; 


print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' 
b = ' + str(sess.run(b) )) 
plt.plot(loss vec l1, 'k-', label-'L1 Loss') 
plt.plot (loss vec 12, 'r--', label-'L2 Loss') 


plt.title('L1' and L2 Loss per Generation!) 
plt.xlabel ('Generation' ) 

plt.ylabel('L1 Loss!) 

plt.legend(loc='upper right") 

plt.show() 


35.3 ”工作 原理 
当选 择 了 一 个 损失 函数 时 ， 也 要 选择 对 应 的 学 习 率 。 这 里 展示 了 两 种 解决 方法 ， 一 种 是 上 一 小 节 的 L2 正 则 损失 函数 ， 另 一 种 是 L1 
正则 损失 逆 数 。 


如 果 学 习 率 太 小 ， 算 法 收敛 耗 时 将 更 长 。 但 是 如 果 学 习 率 太 大 ， 算 法 有 可 能 产生 不 收敛 的 问题 。 下 面 绘制 iris 数 据 的 线性 回归 问题 
的 L1 正 则 和 L2 正 则 损失 ( 见 图 3-5) ， 其 中 学 习 率 为 0.05。 


从 图 3-5 中 可 以 看 出 ， 当 学 习 率 为 0.05 时 ，L2 正 则 损失 更 优 ， 其 有 更 低 的 损失 值 。 当 增加 学 习 率 为 0.4 时 ， 绘 制 其 损失 函数 (WE 
3-6) 。 


LI Loss 


L1 and L2 Loss per Generation 


Generation 
图 3-5 itis 数 据 线 性 回归 的 L1 正 则 和 L2 正 则 损失 ， 学 习 率 为 0.05 


lell L1 and L2 Loss per Generation 
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图 3-6 itis 数 据 线性 回归 的 L1 正 则 和 L2 正 则 损失 ， 学 习 率 为 0.4。 其 中 L1 正 则 损失 不 可 见 是 因为 它 的 y 轴 值 太 大 


从 图 3-6 中 可 以 皮 现 ， 学 习 率 大 导致 L2 损 失 过 大 ， 而 L1 正 则 损失 收敛 。 


3.5.4 HRY 


为 了 更 容易 地 理解 上 述 的 情况 ， 这 里 清晰 地 展示 大 学 习 率 和 小 学 习 率 对 L1 正 则 和 L2 正 则 损失 遂 数 的 影响 。 这 里 可 视 化 的 是 L1 正 则 
和 L2 正 则 损失 消 数 的 一 维 情 况 ， 如 图 3-7 所 示 。 
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图 3-7 L1 正 则 和 12 正 则 损失 函数 在 大 学 习 率 和 小 学 习 率 下 的 影响 


3.6 ”用 TensorFlow 实 现 戴 明 回 上 归 算 法 


本 节 将 实现 戴 明 回归 (total regression) ， 其 意味 着 需要 不 同 的 方式 来 度量 模型 直线 和 数据 集 的 数据 点 间 的 距离 。 


3.6.1 开始 


如 果 最 小 二 乘 线 性 回归 算法 最 小 化 到 回归 直线 的 竖 直 距离 ( 即 ， 平 行 于 y 轴 方向 ) ， 则 戴 明 回归 最 小 化 到 回归 直 绪 的 总 距离 (BD, 
垂直 于 回归 直线 ) 。 其 最 小 化 x 值 和 y 值 两 个 方向 的 误差 ， 具 体 的 对 比 图 如 图 3-8 所 示 。 


Linear Regression Deming Regression 


图 3-8 ”线性 回归 算法 和 戴 明 回归 和 工法 的 区 别 。 左 边 的 线性 回归 最 小 化 到 回归 直线 的 紧 直 距离 ; 右边 的 戴 明 回归 最 小 化 到 回归 直线 的 总 
距离 


为 了 实现 戴 明 回归 算法 ， 我 们 修改 一 下 损失 函数 。 续 性 回归 算法 的 损失 阔 数 最 小 化 坚 直 距离 ; 而 这 里 需要 最 小 化 总 距离 。 给 定 直 
线 的 斜率 和 截 距 ， 则 求解 一 个 点 到 直 续 的 垂直 距离 有 已 知 的 几何 公式 。 代 入 几何 公 陈 并 使 TeansorFlow 最 小 化 距离 。 


3.6.2 动手 做 


1. 除 了 损失 了 水 数 外 ， 其 他 的 步骤 跟前 面 的 类 似 。 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 加 载 数据 集 ， 声 明 批 量 大 小 ,创建 占 
位 待 、 变 量 和 模型 输出 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


sess - tf.Session() 

iris - datasets.load iris() 

x vals = np.array([x[3] for x in iris.data] ) 
y vals = np.array([y[0] for y in iris.datal) 


batch size = 50 

x data = tf.placeholder(shape-[None, 1], dtype=tf.float32) 

y target = tf.placeholder(shape-[None, 1], dtype=tf.float32) 
A = tf.Variable(tf.random normal (shape=[1,1])) 

b = tf.Variable(tf.random normal (shape=[1,1]) ) 

model output = tf.add(tf.matmul(x data, A), b) 


2 RRRA EAN RU SARA VAs. 8xEEdARy-mx-b, Fa (xo, yo) ， 则 求 两 者 间 的 距离 的 公式 为 : 


Yo 一 (MXo + 


m^ 十] 


demming numerator = tf.abs(tf.sub(y target, tf.add(tf.matmul(x 
data, A), b))) 
demming denominator - tf.sqrt(tf.add(tf.square(A),1)) 


loss - tf.reduce mean(tf.truediv(demming numerator, demming 
denominator) ) 


SEs, PHS, XSDXETVVIEKSELA SISSE, (SWE: 


init = tf.global variables initializer() 

sess.run(init) 

my opt - tf.train.GradientDescentOptimizer(0.1) 

train step - my opt.minimize(loss) 

loss vec = [] 

for i in range (250): 
rand index = np.random.choice(len(x vals), size-batch size) 
rand x = np.transpose([x vals[rand index] ] ) 
rand y = np.transpose([y vals[rand indexll) 
sess.run(train step, feed dict={x data: rand x, y target: 

rand y}) 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y}) 


loss vec.append(temp loss) 
if (1+1)%50==0: 


print('Step #''' + str(i+1) + ' A= ' + str(sess.run(A) ) 
' b= ' + str(sess.run(b) ) ) 
print('Loss = ' + str(temp loss) ) 


4. 绘 制 输 出 结果 ( 见 图 3-9) 的 代码 如 下 : 


[Slope] = sess.run(A) 
[y intercept] - sess.run(b) 
best fit = [] 
for i in x vals: 

best fit.append(slope*i+y intercept) 
plt.plot(x vals, y vals, 'o', label-'Data Points!) 
plt.plot(x vals, best fit, 'r-', label='Best' fit line', 
linewidth-23) 
plt.legend(loc='upper left') 
plt.title('Sepal' Length vs Pedal Widtnh') 
plt.xlabel('Pedal Width' ) 
plt.ylabel('Sepal Length') 
plt.show() 
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图 3-9 itis 数 据 集 上 戴 明 回归 算法 的 解 


3.63 ”工作 原理 


本 小 蕊 的 戴 明 回归 算法 与 线性 回归 算法 得 到 的 结果 基本 一 致 。 两 者 乙 间 的 天 键 不 同 点 在 于 预测 值 与 数据 点 间 的 损失 函数 度量 : 线 
性 回归 算法 的 损失 函数 是 竖 直 距离 损失 ; 而 戴 明 回归 算法 是 垂直 距离 损失 〈 到 x 轴 和 y 轴 的 总 距离 损失 ) 。 


注意 ， 这 里 戴 明 回归 算法 的 实现 类 型 是 总 体 回归 (总 的 最 小 二 乘法 误差 ) 。 总 体 回归 算法 是 假设 x 值 和 y 值 的 误差 是 相似 的 。 
我 们 也 可 以 根据 不 同 的 理念 使 用 不 同 的 误差 来 扩展 x 轴 和 y 轴 的 距离 计算 。 


3.7 ”用 TensorFlow 实 现 lasso 回 归 和 | 岭 回归 算法 


r1 


也 有 些 正则 方法 可 以 限制 回归 算法 输出 结果 中 系数 的 影响 ， 其 中 最 常用 的 两 种 正则 方法 是 lasso 回 归 和 岭 回 归 。 本 小 节 将 详细 介绍 
如 何 实现 这 两 种 方法 。 


3.7.1 开始 


lasso 回 归 和 岭 回 归 算 法 跟 剃 规 线性 回归 算法 极其 相似 ， 有 一 点 不 同 的 是 ， 在 公式 中 增加 正则 项 来 限制 斜率 (或 者 净 斜 率 ) 。 这 样 


做 的 主要 原因 是 限制 特征 对 因 变 量 的 影响 ， 通 过 增加 一 个 依赖 斜率 A 的 损失 消 数 实现 。 


对 于 lasso 回 归 算 法 ， 在 损失 阔 数 上 增加 一 项 : 斜率 A 的 某 个 给 定 倍 数 。 我 们 使 用 TensorFlow 的 逻辑 操作 ， 但 没有 这 些 操作 相关 的 
梯度 ， 而 是 使 用 阶 跃 立 数 的 连续 估计 ， 也 称 作 连 续 阶 跃 函数， 其 会 在 截止 点 跳跃 扩大 。 一 会 束 可 以 看 到 如 何 使 用 lasso 回 归 算 法 。 


对 于 岭 回归 算法 ， 增 加 一 个 L2 学 数 ， 即 斜率 系数 的 L2 正 则 。 这 个 简单 的 修改 将 在 后 续 小 万 介绍 。 


3.7.2 ”动手 做 


1. 这 次 还 是 使 用 iris 数 据 集 ， 使 用 方式 跟前 面 的 类 似 。 首 先 ， 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 加 载 数据 集 ， 声 明 批 量 大 
小 ,创建 占 位 符 、 变 量 和 模型 输出 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from sklearn import datasets 

from tensorflow.python.framework import ops 
ops.reset default graph() 


sess = tf.Session() 

iris = datasets.load iris() 

x vals = np.array([x[3] for x in iris.data] ) 
y vals = np.array([yl0] for y in iris.data] ) 
batch size = 50 

learning rate = 0.001 


x data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

y target = tf.placeholder(shape-|None, 1], dtype-tf.float32) 
A = tf.Variable(tf.random normal (shape=[1,1]) ) 

b = tf.Variable(tf.random normal (shape=[1,1])) 

model output = tf.add(tf.matmul(x data, A), b) 


2. 增 加 损失 消 数 ， 其 为 改 民 过 的 连续 阶 路 函数 ，lasso 回 归 的 截止 点 设 为 0.9。 这 意味 着 限制 斜率 系数 不 超过 0.9， 代 码 如 下 : 


lasso param = tf.constant(0.9) 

heavyside step = tf.truediv(1., tf.add(1., tf.exp(tf.mul(-100., 
tf.sub(A, lasso param))))) 

regularization param - tf.mul(heavyside step, 99.) 


loss - tf.add(tf.reduce mean(tf.square(y target - model output)), 
regularization param) 


3. 初 始 化 变量 和 声明 优化 器 ， 代 码 如 下 : 


init = tf.global variables initializer() 
sess.run(init) 


my opt - tf.train.GradientDescentOptimizer(learning rate) 


train step - my opt.minimize(loss) 


Apis t7—FRBJIB)J, AER A mUSX. BARERA., (SRE: 


loss vec - [] 
for i in range(1500): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x = np.transpose([x vals[rand index]]l) 
rand y = np.transpose([y vals[rand indexll) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 
temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 


loss vec.append(temp loss [0]) 
if (i+1)%300==0: 


print('Step #''' + str(i+1) + ' A = ' + str(sess.run(A) ) 
' b= ' + str(sess.run(b) ) ) 
print('Loss = ' + str(temp loss) ) 


Step #300 A = [[ 0.82512331]] b = [[ 2.30319238]] 


Loss = [[ 6.84168959] ] 
Step #600 A = [[ 0.8200165]] b = [[ 3.45292258]] 
Loss = [[ 2.02759886]] 
Step #900 A = [[ 0.81428504]] b = [[ 4.08901262]] 
Loss = [[ 0.49081498]] 


Step #1200 A = [[ 0.80919558]] b 
Loss = [[ 0.40478843] ] 

Step #1500 A = [[ 0.80433637]] b = [[ 4.6360755] ] 
Loss = [[ 0.23839757] ] 


[[ 4.43668795] ] 


3.7.3 ”工作 原理 


通过 在 标准 线性 回归 估计 的 基础 上 ， 增 加 一 个 连续 的 阶 跃 冰 数 ， 实 现 lasso 回 归 算 法 。 由 于 阶 跃 销 数 的 坡度 ， 我 们 需要 注意 步 长 


因为 太 大 的 步 长 会 导致 最 终 不 收 公 。 对 于 怜 回归 算法 ， 将 在 下 一 节 介 绍 对 其 的 必要 修改 。 


3.74 JERZY 


对 于 岭 回归 算法 ， 在 上 一 节 的 代码 基础 上 稍微 改变 损失 函数 即 可 ， 代 码 如 下 : 


ridge param = tf.constant(1.) 
ridge loss = tf.reduce mean(tf.square(A)) 
loss - tf.expand dims(tf.add(tf.reduce mean(tf.square(y target - 


model output)), tf.mul (ridge param, ridge loss)), 0) 


3.8 用 TensorFlow 实 现 弹性 网 络 回归 算法 


弹性 网 络 回归 算法 (Elastic Net Regression) 是 综合 lasso 回 归 和 怜 回 归 的 一 种 回归 算法 ， 通 过 在 损失 函数 中 增加 L1 和 L2 正 则 
项 。 


3.8.1 开始 


在 学 完 前 面 两 节 之 后 ， 可 以 轻松 地 实现 弹性 网 络 回归 算法 。 本 节 使 用 多 线性 回归 的 方法 实现 弹性 网 络 回归 算法 ，Liris 数 据 集 为 训 
练 数据 ， 用 花 铂 长 度 、 论 沂 壳 度 和 伦 芋 宽 度 三 个 特征 预测 花 英 长 度 。 


3.8.2 ”动手 做 


1. 导 入 必要 的 编程 库 并 初始 化 一 个 计算 图 ， 代 码 如 下 : 

import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


gess tf.Session() 


2. 加 载 数据 集 。 这 次 ，x_vals 数 据 将 是 三 列 值 的 数组 ， 代 码 如 下 : 


iris = datasets.load iris() 
x vals = np.array([[x[1], x[2], x[3]] for x in iris.datal) 
y vals = np.array([yl0] for y in iris.datal) 


3. 声 明 批 量 大 小 、 占 位 符 、 变 量 和 模型 输出 。 这 里 唯一 不 同 的 是 x_data 占 位 符 的 大 小 为 3， 代 码 如 下 : 


batch size = 50 

learning rate - 0.001 

x data = tf.placeholder(shape-[None, 3], dtype=tf.float32) 
y target = tf.placeholder(shapes[None, 1], dtypestf.float32) 
A = tf.Variable(tf.random normal (shape-[3,1])) 

b = tf.Variable(tf.random normal(shape-[1,1])) 

model output - tf.add(tf.matmul(x data, A), b) 


A.X FRERE ESTA, TAZRBREMENAOSRCSEBSLTIERURQL21EN!, QIELLI PALZEM, SZARSJDASUSERSZRER, (HAGUE: 


elastic paraml = tf.constant(1.) 

elastic param2 = tf.constant(1.) 

ll a loss = tf.reduce mean(tf.abs(A)) 

12 a loss = tf.reduce mean(tf.square(A)) 

el term = tf.mul(elastic parami, 11 a loss) 


e2 term tf.mul(elastic param2, 12 a loss) 


loss = tf.expand dims(tf.add(tf.add(tf.reduce mean(tf.square(y _ 
target - model output)), el term), e2 term), 0) 


5. 现 在 初始 化 变量 ， 声 明 优 化 器 ， 然 后 遍历 迭代 运行 ， 训 练 拟 合 得 到 系数 ， 代 码 如 下 : 


init = tf.global variables initializer() 
sess.run(init) 
my opt - tf.train.GradientDescentOptimizer(learning rate) 
train step - my opt.minimize(loss) 
loss vec - [] 
for i in range(1000): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x - x vals[rand index] 
rand y = np.transpose([y vals[rand index] ] ) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 
temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 
loss vec.append(temp loss[0]) 
if (1+1)%250==0: 


print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' 
b = ' + str(sess.run(b) )) 
print ('Loss = ' + str(temp loss) ) 


6. 下 面 是 代码 运行 的 输出 结果 : 


Step #250 A = [[ 0.42095602] 

[ 0.1055888 ] 

[ 1.77064979]] b = [[ 1.76164341]] 
Loss - [ 2.87764359] 
Step #500 A = [[ 0.62762028] 

[ 0.06065864] 

[ 1.36294949]] b = [[ 1.87629771]] 
Loss = [ 1.8032167] 
Step #750 A = [[ 0.67953539] 

[ 0.102514 ] 

[ 1.06914485]] b = [[ 1.95604002]] 
Loss = [ 1.33256555] 
Step #1000 A = [[ 0.6777274 ] 

[ 0.16535147] 

[ 0.8403284 ]] b = [[ 2.02246833]] 
Loss = [ 1.21458709] 


TIMEME, PERRERA 〈( 见 图 3-10) ， 代 码 如 下 : 
plt.plot(loss vec, 'k-') 
plt.title('Loss' per Generation!) 
plt.xlabel ('Generation' ) 
plt.ylabel('Loss') 

plt.show() 


3.8.3 ”工作 原理 


绊 性 网 络 回归 算法 的 实现 是 多 线性 回归 。 我 们 能 发 现 ， 增 加 L1 和 L2 正 则 项 后 的 损失 函数 中 的 收敛 变 慢 。 
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图 3-10 “弹性 网 络 回归 和 迭代 训练 1000 次 的 损失 图 


3.9 用 TensorFlow 实 现 罗 辑 回 归 算 法 


本 节 将 实现 逻辑 回归 算法 ， 预 测 低 出 生体 重 的 概率 。 


39.1 开始 


逻辑 回归 算法 可 以 将 线性 回归 转换 成 一 个 二 值 分 类 器 。 通 过 sigmoid 遂 数 将 线性 回归 的 输出 缩放 到 0 和 1 之 间 。 目 标 值 是 0 或 者 1 代 
表 着 一 个 数据 点 是 否 属 于 某 一 类 。 如 果 预 测 值 在 截止 值 以 上 ， 则 预测 值 被 标记 为 “1” 类 ; 否则 ， 预 测 值 标 为 “0” 类 。 在 本 例 中 ， 为 
方便 简单 起 见 ， 将 指定 截止 值 设 为 0.5。 


在 本 例 中 使 用 的 低 出 生体 重 的 数据 在 马萨诸塞 大 学 安 姆 斯 特 分 校 统 计数 据 仓库 (https://www.umass.edu/statdata/statdata/) 
获取 。 我 们 将 从 多 个 因素 来 预测 低 出 生体 重 。 


3.9.2 动手 做 


1. 导 入 必要 的 编程 库 ， 包 括 requests 模 块 ， 因 为 我 们 将 通过 超 链 接 访问 低 出 生体 重 数 据 集 。 初 始 化 一 个 计算 图 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

import requests 

from sklearn import datasets 

from sklearn.preprocessing import normalize 


from tensorflow.python.framework import ops 
ops.reset default graph() 
sess = tf.Session() 


2. 通 过 requests 模 块 加 载 数据 集 ， 指 定 要 使 用 的 特征 。 实 际 出 生体 特征 和 1D 两 列 不 需要 ， 代 码 如 下 : 


birthdata url = 'https://www.umass.edu/statdata/statdata/data/ 
lowbwt.dat' 


birth file - requests.get(birthdata url) 

birth data = birth file.text.split('\r\n') [5:] 

birth header - [x for x in birth data[0].split( '') if len(x)»-1] 
birth data = [[float(x) for x in y.split( '') if len(x)>=1] for y 
in birth data[1:] if len(y)»-1] 

y vals - np.array([x[1] for x in birth data]) 


x vals - np.array([x[2:9] for x in birth datal) 


3 .分割 数据 集 为 测试 集 和 训练 集 ; 


train indices = np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 

test indices = np.array(list(set(range(len(x vals))) - set(train 
indices))) 


x vals train - x vals[train indices] 
x vals test - x vals[test indices] 
y vals train - y vals[train indices] 
y vals test - y vals[test indices] 


4 将 所 有 特征 缩放 到 0 和 1 区 间 (min-max 缩 放 ) ， 罗 辑 回归 收敛 的 效果 更 好 。 下 面 将 归 一 化 特征 ， 代 码 如 下 : 


def normalize cols (m): 
col max = m.max(axis=0) 
col min = m.min(axis=0) 
return (m-col min) / (col max - col min) 


x vals train = np.nan to num(normalize cols(x vals train)) 
x vals test = np.nan to num(normalize cols(x vals test)) 


av 


注意， 在 缩放 数据 集 前 ， 先 分 割 数 据 集 为 测试 集 和 训练 集 ， 这 是 相当 重要 的 。 我 们 要 确保 训练 集 和 测试 集 互 不 影响 。 如 果 我 
们 在 分 害 数 据 集 前 先 缩放 ， 就 无 法 保证 它们 不 相互 影响 。 


5. 声 明 批 量 大 小 、 占 位 符 、 变 量 和 逻辑 模型 。 这 步 不 需要 用 sigmoid 函 数 封装 输出 结果 ， 因 为 sigmoid 操 作 是 包含 在 内 建 损失 函数 
中 的 ， 代 码 如 下 : 


batch size = 25 

x data = tf.placeholder(shape-[None, 7], dtype-tf.float32) 

y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
A = tf.Variable(tf.random normal(shape-[7,1])) 


b = tf£.Variable(tf.random normal (shape=[1,1] )) 
model output = tf.add(tf.matmul (x data, A), b) 


6. ARRAK, ERiByEsigmoideRZX. Mates, ARER, MASUR: 


loss - tf.reduce mean(tf.nn.sigmoid cross entropy with 
logits (model output, y target)) i i E E 
init = tf.global variables initializer () 

sess.run(init) 

my opt = tf.train.GradientDescentOptimizer (0.01) 

train step - my opt.minimize(loss) 


7 RCRA, AIC Ree TMS CAVES. PRLS MRE ESA, ASM: 


prediction = tf.round(tf.sigmoid(model output) ) 

predictions correct = tf.cast(tf£.equal (prediction, y target), 
tf.float32) 

accuracy = tf.reduce mean(predictions correct) 


8.3 s i IER, ICRA, REAUT: 


loss vec = [] 
train acc - [] 
test acc - [] 
for i in range(1500): 

rand index - np.random.choice(len(x vals train), size-batch 
size) 

rand x - x vals train[rand index] 

rand y - np.transpose([y vals train[rand index]l) 

sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 

temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y}) 

loss vec.append(temp loss) 

temp acc train = sess.run(accuracy, feed dict={x data: x vals 
train, y target: np.transpose([y vals train])]) 

train acc.append(temp acc train) 

temp acc test = sess.run(accuracy, feed dict={x data: x vals 
test, y target: np.transpose([y vals test])]) 


test acc.append(temp acc test) 


9. 绘 制 损失 和 准确 度 ， 代 码 如 下 : 


plt .plot (loss vec, 'k-') 

plt.title('Cross Entropy Loss per Generation!) 
plt.xlabel ('Generation' ) 

plt.ylabel('Cross' Entropy Loss') 


plt.show() 
plt.plot(train acc, 'k-', label='Train Set Accuracy!) 
plt.plot (test acc, 'r--', label='Test Set Accuracy!) 


plt.title('Train' and Test Accuracy') 
plt.xlabel ('Generation' ) 
plt.ylabel ('Accuracy' ) 


plt.legend(loc='lower right') 
plt.show() 


3.9.3 ”工作 原理 


这 里 是 迭代 过 程 中 的 损失 ， 以 及 训练 集 和 测试 集 的 准确 度 。 数 据 集 只 有 189 个 观测 值 ， 但 训练 集 和 测试 集 的 准确 度 图 由 于 数据 集 
的 随机 分 割 将 会 变化 ， 如 图 3-11 和 图 3-12 所 示 。 
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图 3-12 ”和 迭代 1500 次 的 测试 集 和 训练 集 的 准确 度 图 


第 4 草 ”基于 TensorFlow 的 支持 向 量 机 


本 章 将 详细 介绍 TensorFlow 中 支持 向 量 机 算法 的 使 用 、 实 现 和 评估 。 学 完 本 章 将 掌握 以 下 知识 点 : 
| 线性 支持 向 量 机 的 使 用 
弱化 为 线性 回归 
TensorFlow 上 核 函 数 的 使 用 
TensorFlow 实 现 非 线性 支持 向 量 机 


- TensorFlow 实 现 多 类 支持 向 量 机 


“一 注意 ， 上 一 章 介绍 的 逻辑 回归 算法 和 本 章 的 大 部 分 支持 向 量 机 算法 都 是 二 值 预测 。 公 辑 回 归 算 法 试图 找到 回归 直线 米 最 大 化 
JER CE) ; 而 支持 向 量 机 工法 也 试图 最 小 化 误差 ， 最 大 化 两 类 之 间 的 间隔 。 一 般 来 说 ， 如 果 一 个 问题 的 训练 集中 有 大 量 特征 ， 则 
建议 用 逻辑 回归 或 者 线性 支持 向 量 机 算法 ; 如果 训 练 集 的 数量 更 大 ， 或 者 数据 集 是 非 线性 可 分 的 ， 则 建议 使 用 带 高 斯 核 的 支持 向 量 机 


记 住 ， 本 章 的 所 有 代码 在 GitHub (https://github.com/nfmcclure/tensorflow cookbook) 可 以 获取 。 


4.1 支持 向 量 机 简介 


支持 向 量 机 算法 是 一 种 二 信 分 类 器 方法 ( 见 图 4-1) 。 基 本 的 观点 是 ， 找 到 两 类 之 间 的 一 个 线性 可 分 的 直线 (或 者 超 平 面 ) . Bi 
假设 二 分 类 目标 是 -1 或 者 1， 代 蔡 前 面 章 节 中 的 0 或 者 1 目标 值 。 有 许多 条 直线 可 以 分 割 两 类 目标 ， 但 是 我 们 定义 分 割 两 类 目标 有 最 大 
距离 的 直线 为 最 佳 线 性 分 类 器 。 


得 到 一 个 超 平面 ， 公 式 如 下 : 


Random Linear Separator Maximum Margin Line 


图 4-1 假设 两 类 分 离 的 目标 ，“o” 和 “x”， 找 到 两 类 目标 间 的 线性 分 类 器 等 式 。 左 边 显 示 有 许多 条 线 分 离 两 类 目标 ; 右边 显示 最 大 


间隔 的 直线 ， 此 时 为 最 小 化 系数 A 的 L2 正 则 


其 中 ， 人 A 是 和 斜率 向 量 ，x 是 输入 向 量 。 最 大 间隔 的 宽度 为 2 除 以 A 的 L2 旋 数 。 对 于 这 个 公式 有 很 多 种 证 明 方 式 ， 但 是 


， 从 几何 观点 来 
看 ， 这 是 二 维 数据 点 到 一 条 直线 的 素 直 距离 。 


对 于 线性 可 分 的 二 值 分 类 数据 集 ， 为 了 最 大 化 间隔 ， 我 们 最 小 化 A 的 L2 范 数 ||Al。 最 小 化 也 必须 服从 以 下 约束 : 


Ax. 


上 述 的 约束 确保 所 有 相关 分 类 的 数据 点 都 在 分 割 线 的 同一 侧 。 


od a 


l 


因为 不 是 所 有 的 数据 集 都 是 线性 可 分 的 ， 我 们 引入 跨 分 割 线 的 数据 点 的 损失 函数 函数 。 对 于 n 个 数据 点 ， 引 入 soft marginit kk 
数 ， 公 式 如 下 : 


| x nm 和 1 7r1 2 
54. max(0, 1 — y, (Ax, — b)) + a| A| 


注意 ， 如 果 数 据点 分 割 正确 ， 乘 积 y; (Axpb) 忌 是 大 于 1。 这 总 味 着 损失 消 数 左边 项 等 于 0， 这 时 对 损失 函数 有 影响 的 仅仅 只 有 间 
隔 大 小 。 


上 述 损失 消 数 寻求 一 个 线性 可 分 的 直线 ， 但 是 也 人 允许 有 些 点 跨越 间隔 直线 ， 这 取决 于 a 值 ， 当 a 什 很 大 ， 模 型 会 倾向 于 尽量 将 样本 
分 割 开 ;a 值 越 小 ， 会 有 更 多 的 跨越 边界 的 点 存在 。 


在 本 章 中 ， 将 建立 一 个 soft margin 支 持 向 量 机 ， 展 示 如 何 将 其 扩展 应 用 到 非 线 性 的 场景 和 多 分 类 目标 。 


4.2 ”线性 支持 侣 量 机 的 使 用 


本 节 将 从 iris 数 据 集 创建 一 个 线性 分 类 器 。 如 前 所 述 ， 用 花 莹 宽度 和 花 莹 长 度 的 特征 可 以 创建 一 个 线性 二 值 分 类 器 来 预测 是 否 为 山 
S FEE. 


4.2.1 开始 


为 了 在 TensorFlow 上 实现 一 个 soft margin 支 持 向 量 机 ， 我 们 将 实现 特殊 的 损失 消 数 ， 公 式 如 下 : 


LY max(0 1-y(C4x —b)) + a|A[f 


i=] 


Hh, ARNE, DERE, EMANE, YED (-1 或 者 1) 。a 是 软 分 类 器 的 正则 参数 。 


4.2.2 ”动手 做 
1. 导 入 必要 的 编程 库 ， 包 括 导 入 scikit learn 的 datasets 库 来 访问 iris 数 据 集 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


Zo 安装 scikit learn "] 4% JF] : $pip install-U scikit-leatn。 注 意 ， 也 可 以 使 用 Anaconda 来 安装 。 


2. 创 建 一 个 计算 图 会 话 ， 加 载 需要 的 数据 集 ， 加 载 iris 数 据 集 的 第 一 列 和 第 四 列 特征 变量 ， 其 为 花 莹 长 度 和 花 苇 帝 度 。 加 载 
目标 变量 时 ， 山 莺 尾 花 为 1， 否 则 为 -1， 代 码 如 下 : 


sess = tf.Session() 


iris = datasets.load iris () 
x vals = np.array([[x[0], x[3]] for x in iris.data] ) 
y vals = np.array([1 if y==0 else -1 for y in iris.target] ) 


3. 分 割 数据 集 为 训练 集 和 测试 集 。 我 们 将 评估 训练 集 和 测试 集训 练 的 准确 度 ， 因 为 我 们 知道 这 个 数据 集 是 线性 可 分 的 ， 所 以 期 待 
在 两 个 数据 集 上 得 到 100% 的 准确 度 ， 代 码 如 下 : 


train indices = np.random.choice(len(x vals), round(len(í(x 
vals)*0.8), replace-False) 

test indices - np.array(list(set(range(len(x vals))) - set(train 
indices))) 


x vals train = x vals[train indices] 
x vals test = x vals[test indices] 
y vals train - y vals[train indices] 
y vals test - y vals[test indices] 


4. 设 置 批量 大 小 、 占 位 符 和 模型 变量 。 对 于 这 个 支持 向 量 机 算法 ,我们 希望 用 非常 大 的 批量 大 小 来 帮助 其 收 线 。 可 以 想象 一 下 ， 
非常 小 的 批量 大 小 会 使 得 最 大 间隔 线 绥 慢 跳动 。 在 理想 情况 下 ， 也 应 该 缓慢 减 小 学 习 率 ， 但 是 这 已 经 足够 了 。A 变 量 的 形状 是 2x1,， 
为 有 伦 苇 长 度 和 伦 苇 营 度 两 个 变量 ,代码 如 下 : 


batch size = 100 


x data = tf.placeholder(shape-[None, 2], dtype-tf.float32) 
y target = tf.placeholder(shapes[None, 1], dtype=tf.float32) 


A 
b 


tf.Variable(tf.random normal (shape-[2,11)) 
tf.Variable(tf.random normal(shape-[1,1]1])) 


5 ARRE. SII NAR, MRA ERAELUS Et, WISSEN ECACT BERE 1; 否则 返回 的 数值 小 于 或 者 等 
于 -1， 代 码 如 下 : 


model output = tf.sub(tf.matmul(x data, A), b) 


6. 声 明 最 大 间隔 损失 浮 数 。 首 先 ， 我 们 将 声明 一 个 消 数 来 计算 向 量 的 L2 范 数 。 接 着 增加 间隔 参数 a。 声 明 分 类 器 损失 函数 ， 并 把 前 
面 两 项 加 在 一 起 ， 代 码 如 下 : 


12 norm = tf.reduce sum(tf.square(A)) 
alpha - tf.constant([0.1]) 


classification term - tf.reduce mean(tf.maximum(0., tf.sub(1., 
tf.mul(model output, y target)))) 


loss - tf.add(classification term, tf.mul(alpha, 12 norm)) 


7 ARPA EBL, ARFA RAA SRUIIZKBSESSE, (STR: 


prediction = tf.sign(model output) 
accuracy = tf.reduce mean (tf.cast (tf.equal (prediction, y target), 
LE.Lloat32]) 


8. FHA teen, Feat, ESRB: 


my opt = tf.train.GradientDescentOptimizer (0.01) 
train step = my opt.minimize(loss) 


init = tf.initialize all variables () 


sess.run(init) 
9. 开 始 遍 历 迭 代 训 | 练 模 型 ， 记 录 训 | 练 集 和 测试 集训 | 练 的 损失 和 准确 度 ， 代 码 如 下 : 


loss vec = [] 
train accuracy = [] 


test accuracy = [] 
for i in range(500): 

rand index - np.random.choice(len(x vals train), size-batch 
size) 


rand x - x vals train[rand index] 

rand y = np.transpose([y vals train[rand_ index] ] ) 

sess.run(train step, feed dict={x data: rand x, y target: 
rand yj) 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 


loss vec.append(temp loss) 


train acc temp = sess.run(accuracy, feed dict={x data: x vals 
train, y target: np.transpose([y vals train])]) 
train accuracy.append(train acc temp) 


test acc temp = sess.run(accuracy, feed dict={x data: x vals 
test, y target: np.transpose([y vals test]) }) 


test accuracy.append(test acc temp) 


if (1+1)%100==0: 


print('Step #' + str(i«1) + ' A = ' + str(sess.run(A)) + ' 
b = ' + str(sess.run(b))) 
print ('Loss = ' + str(temp loss) ) 


10. 训 练 过 程 中 前 面 脚 本 的 输出 结果 如 下 : 


Step #100 A = [[-0.10763293] 
[-0.65735245]] b = [[-0.68752676]] 

Loss = [ 0.48756418] 

Step #200 A = [[-0.0650763 ] 
[-0.89443302]] b = [[-0.73912662] ] 

Loss = [ 0.38910741] 

Step #300 A = [[-0.02090022] 
[-1.12334013]] b = [[-0.79332656] ] 

Loss = [ 0.28621092] 

Step #400 A = [[ 0.03189624] 
[-1.34912157]] b = [[-0.8507266]] 

Loss = [ 0.22397576] 

Step #500 A = [[ 0.05958777] 
[-1.55989814]] b = [[-0.9000265]] 

Loss = [ 0.20492229] 


11.73 TRAA, SEMAN, Dax vas USE (l.setosa) MIEUS Et (non-l.setosa) ， 代 码 如 下 : 


[tal], [a2]] = sess.run(A) 
[[b]] = sess.run(b) 

slope - -a2/a1 

y intercept = b/al 


xl vals = [d[1] for d in x vals] 
best fit - [] 


for i in x1 vals: 
best fit.append(slope*i+y intercept) 


setosa x = [d[1] for i,d in enumerate(x vals) if y valsiil- 
setosa y = [d[0] for i,d in enumerate(x vals) if y vals[i]= 
not setosa x - [d[1] for i,d in enumerate(x vals) if y 
vals [1] ==-1] 

not setosa y = [d[0] for i,d in enumerate(x vals) if y 


vals [i] ==-1] 


12. 下 面 是 代码 绘制 数据 的 线性 分 类 器 、 准 确 度 和 损失 图 ( 见 图 4-2) ， 代 码 如 下 : 


Dt. 
ELE. 
DE. 


labelz'I. 
plot (not setosa x, not setosa y, 
plot (x1 vals, best fit, 


plot(setosa x, setosa y, 'o', setosa') 
( 


P UE 


'r-', label-'Linear Separator', 


linewidth-z323) 


plt 


plt 
plt 
plt 


plt 
plt 
plt 
DLE 
plt 


plt 
plt 
plt 
plt 


\ 交 一 使 用 TensorFlow 实 现 SVD 算 法 可 能 导致 每 次 运行 的 结果 不 尽 相 同 。 原 因 和 包括 训 练 集 和 测试 集 的 随机 分 割 ， 每 批 训练 的 批量 大 
小 不 同 ， 在 理想 情况 下 每 次 迭代 后 学 习 率 缓慢 减 小 。 


.ylim([O0, 
plt. 
.title('Sepal Length vs Pedal Width!) 
.xlabel('Pedal Width') 
.ylabel(í('Sepal Length') 
DI. 


.plot (loss vec, 


10] ) 
legend (loc='lower right') 


show () 
._plot (train accuracy, 'k-', label='Training Accuracy!) 
._plot (test accuracy, 'r--', label='Test Accuracy') 


.title('Train and Test Set Accuracies') 
.xlabel ('Generation' ) 

.ylabel ('Accuracy' ) 

DLE. 
plt. 


legend (loc='lower right') 
show () 


'k-') 


.title('Loss per Generation' ) 
.xlabel ('Generation' ) 
.ylabel('Loss') 

DLL. 


show() 


label='Non-setosa') 
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图 4-3 ”训练 集 和 测试 集 移 代 的 准确 度 。 由 于 两 类 目标 是 线性 可 分 的 ， 得 到 准确 度 是 100% 


从 图 4-3 中 可 以 看 出 ， 训 练 集 和 测试 集 进 代 训 练 。 由 于 两 类 目标 是 线性 可 分 的 ， 我 们 得 到 准确 硫 是 100%。 迭 代 500 次 的 最 大 间 隅 
如 图 4-4 所 示 。 


Loss per Generation 
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4.2.3 ”工作 原理 


本 节 使 用 最 大 间隔 损失 函数 实现 了 线性 支持 向 量 机 算法 模型 。 


4.3 ”弱化 为 线性 回归 


支持 向 量 机 可 以 用 来 拟 合 线性 回归 。 本 节 将 展示 如 何在 TensorFlow 实 现 支 持 向 量 机 用 来 拟 合 线性 回归 |。 


4.3.1 开始 


相同 的 最 大 间隔 (maximum margin) 的 概念 应 用 到 续 性 回归 拟 合 。 代 蔡 最 大 化 分 割 两 类 目标 是 ， 最 大 化 分 割 包含 大 部 分 的 数据 
m (Xx，y) 。 我 们 将 用 相同 的 iris 数 据 集 ， 展 示 用 刚才 的 概念 来 进行 花 昔 长 度 与 伦 流 壳 度 之 间 的 线性 拟 合 。 


相关 的 损失 函数 类 似 于 max (0, lyi- (Axi+b) |-s) 。s 这 里 ， 是 间隔 宽度 的 一 半 ， 这 意味 着 如 果 一 个 数据 点 在 该 区 域 ， 则 损失 等 
于 0。 


4.3.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 加 载 iris 数 据 集 。 然 后 分 割 数据 集 为 训练 集 和 测试 集 ， 并 且 可 视 化 相应 的 损失 函数 ， 
代码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


sess - tf.Session() 

iris - datasets.load iris() 

x vals = np.array([x[3] for x in iris.datal) 

y vals = np.array([y[0] for y in iris.data]) 

train indices - np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 

test indices = np.array (list (set (range (len(x vals))) - set(train 
indices))) 


x vals train - x vals[train indices] 
x vals test - x vals[test indices] 
y vals train - y vals[train indices] 


y vals test - y vals[test indices] 


2. 声 明 批 量 大 小 、 占 位 符 和 变量 ,创建 线性 模型 ,代码 如 下 : 


batch size = 50 


x data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 
y target = tf.placeholder(shape-[None, 1], dtype=tf.float32) 


A 
b 


tf.Variable(tf.random normal (shape=[1,1]) ) 
tf.Variable(tf.random normal (shape=[1,1])) 


model output = tf.add(tf.matmul (x data, A), b) 


3.FSBHtmAEERZM. iZiMARAOAVAMA, SCHMAT=0.5, xxm, AESQAKERZNHJ—8u0523, RÓtYrsoft marginftShard margin, (tt 


epsilon = tf.constant([0.5]) 


loss - tf.reduce mean(tf.maximum(0., tf.sub(tf.abs(tf.sub(model 
output, y target)), epsilon))) 


4 .创建 一 个 优化 器 ， 急 始 化 变量 ， 代 码 如 下 : 


my opt = tf.train.GradientDescentOptimizer(0.075) 
train step = my opt.minimize (loss) 


init - tf.initialize all variables() 
sess.run(init) 
5. 现 在 开始 200 次 迭代 训练 ， 保 存 训练 集 和 测试 集 损失 函数 ， 后 续 用 来 绘图 ， 代 码 如 下 : 


train loss = [] 
test loss - [] 
for i in range(200): 


rand index - np.random.choice(len(x vals train), size-batch 
size) 


rand x np.transpose([x vals train[rand index] ] ) 
rand y - np.transpose([y vals train[rand index]l) 


sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 


temp train loss = sess.run(loss, feed dict={x data: 
np.transpose([x vals train]), y target: np.transpose([y vals __ 
train])]) 


train loss.append(temp train loss) 


temp test loss - sess.run(loss, feed dict-(x data: 
np.transpose([x vals test]), y target: np.transpose([y vals 
test] ) }) 


test loss.append(temp test loss) 
if (1+1)%50==0: 


print ('----------- ') 

print ('Generation: ' + str(i)) 

print('A = ' + str(sess.run(A)) + ' b = ' + str(sess. 
run (b) ) ) 

print ('Train Loss = ' + str(temp train loss) ) 

print ('Test Loss = ' + str(temp test loss) ) 


6. 下 面 是 迭代 训练 输出 结 


Generation: 50 

A= [[ 2.20651722]] b = [[ 2.71290684] | 
Train Loss - 0.609453 

Test Loss = 0.460152 

Generation: 100 

A = [[ 1.6440177]] b = [[ 3.75240564] ] 


Train Loss = 0.242519 
Test Loss = 0.208901 
Generation: 150 

A = [[ 1.27711761]] b 
Train Loss = 0.108192 
Test Loss = 0.119284 


[[ 4.3149066]] 


Generation: 200 

A = [[ 1.05271816]] pb 
Train Loss - 0.0799957 
Test Loss - 0.107551 


[[ 4.53690529]] 


7. 现 在 抽取 系数 ， 获 取 最 佳 拟 合 直 续 的 截 距 。 为 了 后 续 绘 图 ， 这 里 也 获取 间 隅 宽度 值 ， 代 码 如 下 : 


[[slope]] = sess.run(A) 
[Ly _intercept]] = sess.run(b) 
[width] = sess.run(epsilon) 


best fit - [] 
best fit upper [] 
best fit lower - [] 


for i in x vals: 


best fit.append(slope*i+y intercept) 
best fit upper.append(slope*i+y intercept+width) 
best fit lower.append(slope*i+y intercept-width) 


8. 最 后 ， 绘 制 数 据点 和 拟 合 直线 ， 以 及 训练 集 和 测试 集 损 失 ， 代 码 如 下 (对 应 的 图 见 图 4-5) : 


DLE 
Dt 


.plot(x vals, y vals, 'o', 
.plot (x vals, best fit, 


label-'Data Points!) 
ect 


linewidth=3) 


Dit 
plt 
plt 


plt. 
DUE. 
.xlabel('Pedal Width') 
.ylabel('Sepal Length!) 
plt. 


plt 
DLE 


EE 
plt 


DLE. 


plt 
plt 


plt 


Sepal Length 


.plot(x vals, best fit upper, 'r--', linewidth=2) 
.plot (x vals, best fit lower, 'r--', linewidth-2) 
.ylim([0, 10]) 

legend(locs'lower right") 


title('Sepal Length vs Pedal Width') 


show() 
.plot (train loss, 'k-', label='Train Set Loss') 
.plot(test loss, 'r--', label-'Test Set Loss') 


title('L2 Loss per Generation') 


.xlabel ('Generation' ) 
.ylabel('L2 Loss') 
DLE... 


legend (loc='upper right') 


. show () 
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A4-5 ”基于 itis 数 据 集 ( 花 葛 长 度 和 花 办 宽度 ) 的 支持 向 量 机 回归 ， 间 隔 宽 度 为 0.5 


图 4-6 是 模型 训练 和 迭代 中 训练 集 和 测试 集 的 训练 损失 : 


label='SVM Regression Line', 


25 


L2 Loss per Generation 


Train Set Loss 
Test Set Loss 


L2 Loss 
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Generation 
图 4-6， 每 次 迭代 的 支持 向 量 机 回归 的 损失 值 (训练 集 和 测试 集 ) 


4.3.3 ”工作 原理 
直观 地 讲 ， 我 们 认为 SVM 回归 算法 试图 把 更 多 的 数据 点 拟 合 到 直线 两 边 2s 宽 度 的 间隔 内 。 这 时 拟 合 的 直线 对 于 参数 更 有 意义 。 


如 果 选 择 太 小 的 s 值 ，SVM 回 归 算 法 在 间隔 宽度 内 不 能 拟 合 更 多 的 数据 点 ;如果 选 择 太 大 的 e 值 ， 将 有 许多 条 直线 能 够 在 间隔 宽度 内 拟 
合 所 有 的 数据 点 。 作 者 更 倾 同 于 选取 更 小 的 e 值 ， 因 为 在 间隔 宽度 附近 的 数据 点 比 远 处 的 数据 点 贡献 更 少 的 损失 。 


44 TensorFlow 上 核 函 数 的 使 用 


上 书 介 绍 的 是 用 SVM 算 法 线性 分 割 数 据 集 。 如 果 想 分 割 非 线性 数据 集 ， 该 如 何 改变 线性 分 类 器 映射 到 数据 集 ? 管 案 是 ， 改 变 SVM 
损失 消 数 中 的 核 溺 数 。 本 节 将 详细 曾 述 如 何 调整 核 浮 数 ， 并 且 分 割 非 线 性 可 分 的 数据 集 。 


4.4.1 开始 


我 们 将 介绍 支持 向 量 机 算法 中 核 消 数 的 使 用 。 在 4.2 节 中 ， 及 用 特殊 损失 消 数 来 解决 soft margin 问题 。 另 外 一 种 解决 soft margin 
的 方法 是 对 偶 优 化 问题 ， 线 性 支持 向 量 机 问题 的 对 偶 表 达 式 为 : 


Fl 


max Db, - yy h(x, X,)y;b, 


i=l j=l 


| 
— " < —— 
by. =0M0<b any 


上 述 表 达 式 中 ， 模 型 变量 是 向 量 b。 在 理想 情况 下 ，b 向 量 


是 稀 蚊 向 量 ，iris 数 据 集 相 关 的 支持 向 量 仪 仅 取 1 和 -1 附近 的 值 。 数 据点 
向 量 以 xi 表示 ， 目 标 值 (1 或 者 -1) AYRA. 


在 前 述 万 程 里 的 核 消 数 是 点 积 ，xiXxj， 其 为 线性 核 孙 数 。 该 核 消 数 是 以 数据 点 (5, j) 的 点 积 填充 的 方 阵 。 


蔡 代 数据 点 间 的 点 积 ， 可 以 将 其 扩展 到 更 复杂 的 函数 更 高 维度 。 这 看 似 不 怎么 复杂 ， 但 是 如 果 选 择 立 数 k， 


k(xi,X;)=9 (x) LU 


XE, KPA. BT ZJANRUBJERERAAT SAAR (WEA, fS EETAERENSKERBFEABSEA) , ZAR SE 
TY: 


其 需 满足 如 下 条 件 : 


— 147 2 
k(x,x,)-e |x; x, 


为 了 用 该 核 函数 预测 ， 假 设 观测 数据 点 pi， 代 入 上 述 核 函 数 等 式 中 : 


B 2 
K(X, p,) -€ JTP; 


在 本 节 中 ， 我 们 将 讨论 如 何 实现 高 斯 核 浮 数 。 注 意 ， 这 里 将 用 合适 的 线性 核 浮 数 实现 来 替代 。 为 了 显示 高 斯 核 消 数 比 线性 核 冰 数 
更 合适 ， 使 用 的 数据 集 是 程序 生成 的 模拟 数据 。 


4.4.2 动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 : 
import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from sklearn import datasets 

sess - tf.Session() 

2. 生 成 模拟 数据 。 生 成 的 数据 是 两 个 同心 圆 数据 ， 每 个 不 同 的 环 代表 不 同 的 类 ， 确 保 只 有 类 -1 或 者 1。 为 了 让 绘图 方便 ， 这 里 将 每 
类 数据 分 成 x 值 和 y 值 ， 代 码 如 下 : 


(x vals, y vals) = datasets.make circles(n samples-500, factor-.5, 
noise=.1) 
y vals = np.array([1 if y==1 else -1 for y in y vals]) 


class1 x = [x[0] for i,x in enumerate(x vals) if y vals[il--1] 
classi y = [x[1] for i,x in enumerate(x vals) if y vals[il--1] 
class2 x = [x[0] for i,x in enumerate(x vals) if y vals[1] ==-1] 
class2 y = [x[1] for i,x in enumerate(x vals) if y vals[il---1] 


3. 声 明 批 量 大 小 、 占 位 符 ， 创建 模型 变量 b。 对 于 SVM 算 法 ， 为 了 让 每 次 迭代 训练 不 波动 ， 得 到 一 个 稳定 的 训练 模型 ， 这 时 批量 
大 小 得 取 值 更 大 。 注 意 ， 本 例 为 预测 数据 点 声明 有 额外 的 占 位 符 。 最 后 创建 彩色 的 网 格 来 可 视 化 不 同 的 区 域 代表 不 同 的 类 别 ， 代 码 如 
F: 


batch size = 250 

x data = tf.placeholder(shape-[None, 2], dtype-tf.float32) 

y target = tf.placeholder (shape= [None, 1], dtype=tf.float32) 
prediction grid = tf.placeholder(shape-[None, 2], dtype-tf. 
ELOaES 2) 

b = tf.Variable(tf.random normal (shape=[1,batch size] ) ) 


4.8] fg ESRRTAEREN. IZA PRM, fUBATT: 


gamma = tf.constant(-50.0) 

dist - tf.reduce sum(tf.square(x data), 1) 

dist = tf.reshape(dist, [-1,1]) 

sq dists = tf.add(tf.sub(dist, tf.mul(2., tf.matmul(x data, 
tf.transpose(x data)))), tf.transpose (dist) ) 

my kernel = tf.exp(tf.mul(gamma, tf.abs(sq dists))) 


M 


注意 ， 在 sq_dists 中 应 用 广播 加 法 和 减法 操作 。 
线性 核 函 数 可 以 表示 为 : my_kernel=tf.matmul (x data, tf.transpose (x data) ) o 
5. 声 明 在 本 节 一 开始 提 到 的 对 偶 问 题 。 为 了 最 大 化 ， 这 里 采用 最 小 化 损失 国 数 的 负数 : tf.neg () ,代码 如 下 : 


model output = tf.matmul(b, my kernel) 
first term - tf.reduce sum(b) 


b vec cross - tf.matmul(tf.transpose(b), b) 

y target cross = tf.matmul(y target, tf.transpose(y target) ) 
second term = tf.reduce sum(tf.mul(my kernel, tf.mul(b vec cross, 
y target cross))) 

loss = tf.neg(tf.sub(first term, second term)) 


6. OIETARA ERRAR. EEA, SAAT, (AMSG RAAB CB DEAF P FEES SUR RABIA 
负数 。 预 测 值 是 模型 输出 的 符号 函数 值 ， 代 码 如 下 : 


rA = tf.reshape(tf.reduce sum(tf.square(x data), 1), [-1,1]) 
rB = tf.reshape(tf.reduce sum(tf.square (prediction grid), 1), [-1,1]) 


pred sq dist = tf.add(tf.sub(rA, tf.mul(2., tf.matmul(x data, 
tf.transpose (prediction grid)))), tf.transpose(rB)) 


pred kernel = tf.exp(tf.mul(gamma, tf.abs (pred sq dist))) 


prediction output - tf.matmul(tf.mul(tf.transpose(y target),b), 
pred kernel) 


prediction = tf.sign(prediction output-tf.reduce mean (prediction _ 
output) ) 


accuracy = tf.reduce mean (tf.cast (tf.equal (tf.squeeze (prediction), 
tf.squeeze(y target)), tf.float32) ) 


A 为 了 实现 线性 预测 核 函 数 ， 将 预测 核 函 数 改 为 : pred. kernel-tf.matmul (x data, tf.transpose (prediction grid) ) o 
7. 创 建 优 化 器 函数 ， 初 始 化 所 有 的 变量 ， 代 码 如 下 : 
my opt = tf.train.GradientDescentOptimizer (0.001) 
train step = my opt.minimize (loss) 


init - tf.initialize all variables() 
sess.run(init) 


8. 开 始 友 代 训练 。 这 里 会 记录 每 次 迁 代 的 损失 向 量 和 批量 训练 的 , 付 确 度 。 当 计算 准确 度 时 ， 需 要 为 三 个 占 位 符 赋 值 ， 其 
中 ，x_data 数 据 会 被 赋值 两 次 来 得 到 数据 点 的 预测 值 ， 代 码 如 下 : 


loss vec = [] 
batch accuracy = [] 
for i in range(500): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x = x vals[rand index] 
rand y - np.transpose([y vals[rand index]l) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 
loss vec.append(temp loss) 


acc temp = sess.run (accuracy, feed dict={x data: rand x, 
y target: rand y, 
prediction 
grid:rand x]) 
batch accuracy.append(acc temp) 


if (1+1)%100==0: 
print('Step #' + strí(i-1)) 
print('Loss = ' + str(temp loss)) 


9. 输 出 结果 如 下 : 


Step #100 
Loss - -28.0772 


Step $200 

Loss = -3.3628 
Step #300 

Loss = -58.902 
Step #400 

Loss = -75.1121 
Step #500 

Loss - -84.8905 


10. 为 了 能 够 在 整个 数据 空间 可 视 化 分 类 返回 结果 ， 我 们 将 创建 预测 数据 点 的 网 格 ， 并 在 其 上 进行 预测 ， 代 码 如 下 : 


x min, x max = x vals[:, 0].min() - 1, x vals[:, 0] .max() + 1 
y min, y max = x vals[:, 1].min() - 1, x vals[:, 1].max() + 1 
Xx, yy - np.meshgrid(np.arange(x min, x max, 0.02), 
np.arange(y min, y max, 0.02)) 

grid points = np.c [xx.ravel(), yy.ravel(í)] 
[grid predictions] = sess.run(prediction, feed dict-(x data: 
rand x, 

y target: 
rand y, 

prediction 
grid: grid points]) 
grid predictions = grid predictions.reshape xx.shape) 


11.RIBÉATBUTRMAER. WEERA ARR: 


Dit. 


contourf (xx, yy, grid predictions, cmap-plt.cm.Paired, 


alpha=0.8) 


plt 
pit 


DLE 
pit 
plt 


DLE 
DLE 
Dit 
DLE 


DL. 


DLE 
plt 
plt 
BEE 
ELE 


.plot(class1 x, 
.plotí(class2 x, 
plt. 
.Vlim([=1.5, 
.xlim([-1.5, 
. Show () 


Plot (baten accuracy, 


label='Class 1') 
label='Class -1') 


classl y, 'ro', 


class2 y, ‘kx’, 
legend(loc2'lower right') 
1.5]) 


1.51] 


'k-', label='Accuracy' ) 


.title('Batch Accuracy!) 
.xlabel('Generation!) 
.ylabel('Accuracy!) 

DU. 


legend(loc-'lower right!) 
show () 
.plot (loss vec, 'k-') 


.title('Loss per Generation!) 
.xlabel('Generation!) 
.ylabel(í('Loss') 

. Show () 


12. 简 单 扼要 ， 这 里 只 显示 训练 结果 图 ( 见 图 4-7 和 图 4-8) ， 不 过 也 可 以 分 开 运 行 绘图 代码 展示 其 他 效果 。 
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图 4-7 “使 用 线性 支持 向 量 机 在 非 线性 可 分 的 数据 集 上 进行 分 因 


Gaussian SVM Results 
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图 4-8 ”使 用 非 线性 的 高 斯 核 函 数 SVM 在 非 线 性 可 分 的 数据 集 上 进行 分 割 


15 


图 4-7 展 示 的 是 在 非 线性 可 分 的 数据 集 上 进行 线性 SVM 训练 。 


图 4-8 展 示 的 是 非 线 性 可 分 的 数据 集 上 进行 非 线 性 的 高 斯 核 函数 SVM 训 | 练 。 


44.3 ”工作 原理 
上 述 的 代码 里 有 两 个 重要 的 部 分 : 如 何 为 SVM 对 偶 优 化 问题 完成 核 国 数 和 损失 函数 。 我 们 已 经 实现 了 线性 核 国 数 和 高 斯 核 国 数 ， 
其 中 高 斯 核 国 数 能 够 分 割 非 线性 数据 集 。 


我 们 也 应 该 注意 到 高 斯 核 立 数 中 有 一 个 参数 一 一 gamma。 该 参数 控制 数据 集 分 割 的 弯曲 部 分 的 影响 程度 ， 一 般 情 况 下 选择 较 小 
值 ， 但 是 也 严重 依赖 于 数据 集 。 在 理想 情况 下 ，gamma 值 是 通过 统计 技术 (比如 ， 交 叉 验证 ) 来 确定 的 。 


4.4.4 延伸 学 习 


K(Xi, X) = (x; : x, +1)° 


- XU IE RK Hy HK: 


k(x;,x,) = tanh (ax, -x, +k) 


45 用 TensorFlow 实 现 非 线性 支持 向 量 机 


本 将 会 应 用 非 线性 核 函 数 来 分 割 数据 集 。 


4.5.1 开始 


本 节 使 用 前 面 实现 的 高 斯 核 浮 数 SVM 来 分 割 真 实数 据 集 。 我 们 将 加 载 iris 数 据 集 ， 创 建 一 个 山 芒 尾 伦 (l.setosa) 的 分 类 器 。 后 面 
将 会 看 到 各 种 gamma 值 对 分 类 器 的 影响 。 


4.5.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 包 括 scikit learn 的 datasets 模 块 。scikit learn 的 datasets 模 块 可 以 加 载 iris 数 据 集 。 然 后 建立 一 个 计算 图 会 
话 ， 代 码 如 下 : 

import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from sklearn import datasets 

sess - tf.Session() 


2. 加 载 iris 数 据 集 ， 抽 取 化 车 长 大 和 伦 瓣 宽度 ， 分 割 每 类 的 x_vals 值 和 y_vals 值 ， 代 码 如 下 : 


iris = datasets.load iris() 
x vals = np.array([[x[0], x[3]] for x in iris.datal) 


y vals - np.array([1 if y--0 else -1 for y in iris.target]) 
classl x = [x[0] for i,x in enumerate(x vals) if y vals[il--1] 
classi y = [x[1] for i,x in enumerate(x vals) if y vals[il--1] 
class2 x = [x[0] for i,x in enumerate(x vals) if y vals[1i]==-1] 
class2 y = [x[1] for i,x in enumerate(x vals) if y vals[i]---1] 


3. 声 明 批 量 大 小 (偏向 于 更 大 批量 大 小 ) 、 占 位 符 和 模型 变量 b， 代 码 如 下 : 


batch size = 100 


x data = tf.placeholder(shapes[None, 2], dtype=tf.float32) 

y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
prediction grid = tf.placeholder(shape-[None, 2], dtype-tf. 
Float32) 


b = tf.Variable(tf.random normal (shape=[1,batch size] ) ) 


4 eSATA. TXMABRÉXHKEgammafü, ESPRE Rn gamma En, MASUR: 


gamma = tf.constant(-10.0) 

dist = tf.reduce sum(tf.square(x data), 1) 

dist = tf.reshape(dist, [-1,1]) 

sq dists - tf.add(tf.sub(dist, tf.mul(2., tf.matmul(x data, 
tf.transpose(x data)))), tf.transpose (dist)) 

my kernel - tf.exp(tf.mul(gamma, tf.abs(sq dists))) 

We now compute the loss for the dual optimization problem, as 
follows: 


model output = tf.matmul(b, my kernel) 

first term - tf.reduce sum(b) 

b vec cross = tf.matmul(tf.transpose(b), b) 

y target cross = tf.matmul(y target, tf.transpose(y target)) 
second term = tf.reduce sum(tf.mul(my kernel, tf.mul(b vec cross, 
y target cross) ) ) 

loss = tf.neg(tf.sub(first term, second term) ) 


5.73 T (EASVM HTI, GIES—" YRGRUEZBSEN. ZH NER RE, A AIRDRIE SL, ASE: 


rA = tf.reshape(tf.reduce sum(tf.square(x data), 1), [-1,1]) 

rB = tf.reshape(tf.reduce sum(tf.square (prediction grid), 1), [-1,1]) 
pred sq dist = tf.add(tf.sub(rA, tf.mul(2., tf.matmul(x data, 
tf.transpose(prediction grid)))), tf.transpose (rB)) 

pred kernel = tf.exp(tf.mul(gamma, tf.abs (pred sq dist))) 


prediction output - tf.matmul(tf.mul(tf.transpose(y target),b), 
pred kernel) 

prediction = tf.sign(prediction output-tf.reduce mean(prediction _ 
output) ) 

accuracy = tf.reduce mean (tf.cast (tf.equal (tf.squeeze (prediction), 
tf.squeeze(y target)), tf.float32)) 


6 ARRERA, Meats, ASAE: 


my opt = tf.train.GradientDescentOptimizer (0.01) 
train step - my opt.minimize(loss) 
init = tf.initialize all variables () 


sess.run(init) 


7 EFPIA UII. 1E( C300, FRAT EE, TST: 


loss vec = [] 
batch accuracy - [] 


for i in range(300): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x - x vals[rand index] 
rand y = np.transpose([y vals[rand index] ] ) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand yj) 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 


loss vec.append(temp loss) 


acc temp - sess.run(accuracy, feed dict-(x data: rand x, 
y target: rand y, 
prediction 
grid:rand x]) " 
batch accuracy.append(acc temp) 


8. 为 了 绘制 决策 边界 (Decision Boundary) ， 我 们 创建 一 个 数据 点 (x, y) ASS, PAPEL, REAT : 


x min, x max = x vals[:, 0] .min() - 1, x vals[:, 0] .max() + 1 
y min, y max = x vals[:, 1].min() - 1, x vals[:, 1].max() + 1 
Xx, yy - np.meshgrid(np.arange(x min, x max, 0.02), 
np.arange(y min, y max, 0.02)) 

grid points = np.c [xx.ravel(), yy.ravel()] 
[grid predictions] = sess.run(prediction, feed dict={x data: 
rand x, 

y target: 
rand y, 

prediction 


grid: grid points]) 
grid predictions - grid predictions.reshape (xx.shape) 


9. 为 了 简明 扼要 ， 这 里 仅 仪 显示 如 何 绘制 决策 边界 。 对 于 gamma 值 的 影响 和 绘图 将 在 下 一 节 介绍 ， 代 码 如 下 : 


plt.contourf (xx, yy, grid predictions, cmap-plt.cm.Paired, 
alpha=0.8) 

plt .plot (classl1 x, classi y, 'ro', label-'I. setosa') 
plt.plot(class2 x, class2 y, 'kx', label='Non setosa') 
plt.title('Gaussian SVM Results on Iris Data') 
plt.xlabel('Pedal Length!) 

plt.ylabel('Sepal Width') 

plt.legend(loc='lower right!) 

plt.ylim([-0.5, 3.0]) 

BL RL 3-5; B.51J 

plt.show() 


4.5.3 工作 原理 


这 里 是 四 种 不 同 的 gamma 值 (1, 10, 25, 100) , WSS (l.setosa) 的 分 类 器 结果 图 ， 如 图 4-9 所 示 。 注 意 ，gamma 值 越 
大 ， 每 个 数据 点 对 分 类 边界 的 影响 就 越 大 。 


Gamma=1 Gamma = 10 


Sepal Width 


Sepal Width 


Pedal Length Pedal Length 


图 4-9 A Flgammatiisy ly BEI (Lsetosa) 的 分 类 器 结果 图 ， 采 用 高 斯 核 函 数 的 SVM 


3s 


46 ”用 TensorFlow 实 现 多 类 支持 向 量 机 


我 们 也 能 用 SVM 分 类 多 类 目标 。 在 本 世 中 ， 将 详细 展示 一 个 多 类 支持 向 量 机 分 类 器 训练 iris 数 据 集 来 分 类 三 种 人 花 。 


4.6.1 开始 
SVM 算 法 最 初 是 为 二 值 分 类 问题 设计 的 ， 但 是 也 可 以 通过 一 些 策 略 使 得 其 能 进行 多 类 分 类 。 主 要 的 两 种 策略 是 : 一 对 多 (one 
versus all) 方法 ; 一 对 一 (one versus one) 方法 。 


一 对 一 方法 是 在 任意 两 类 样本 之 间 设 计 创 建 一 个 二 值 分 类 器 ， 然 后 得 票 最 多 的 类 别 即 为 该 未 类 样本 的 预测 类 别 。 但 是 当 类 别 (k 
类 ) 很 多 的 时 候 ， 就 必须 创建 k! / (k-2) ! 2! 个 分 类 器 ， 计 算 的 代价 还 是 相当 大 的 。 


另外 一 种 实现 多 类 分 类 器 的 方法 是 一 对 多 ， 其 为 每 类 创建 一 个 分 类 器 。 最 后 的 预测 类 别 是 具有 最 大 SVM 间隔 的 类 别 。 本 小 节 将 实 
MZDA. 


我 们 将 加 载 iris 数 据 集 ， 使 用 高 斯 核 函数 的 非 线性 多 类 SVM 模型 。iris 数 据 集 含 有 三 个 类 别 ， 山 营 尾 、 变 色 营 尾 和 维 吉 尼 亚 芍 尾 
(l.setosa, l.virginicas[ll.versicolor) ， 我 们 将 为 它们 创建 三 个 高 斯 核 函 数 SVM 来 预测 。 


46.2 ”动手 做 
1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 ， 代 码 如 下 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

From sklearn import datasets 
sess = tf.Session() 


2. 加 载 iris 数 据 集 并 为 每 类 分 离 目标 值 。 因 为 我 们 想 绘 制 结果 图 ， 所 以 只 使 用 人 花车 长 度 和 花瓣 宽度 两 个 特征 。 为 了 便于 绘图 ， 也 会 
分 离 x 值 和 y 值 ， 代 码 如 下 : 


iris = datasets.load iris() 

x vals = np.array([[x[0], x[3]] for x in iris.datal) 

y valsı = np.array([1 if y==0 else -1 for y in iris.target] ) 
y vals2 = np.array([1 if y==1 else -1 for y in iris.target] ) 
y vals3 = np.array([1 if y==2 else -1 for y in iris.target]) 
y vals = np.array(ly valsl, y vals2, y vals3l) 


classi x = [x[0] for i,x in enumerate(x vals) if iris. 
target [1] ==0] 
classl y = [x[1] for 1,x in enumerate(x vals) if iris. 
target [1] ==0] 
class2 x = [x[0] for i,x in enumerate(x vals) if iris. 
target [1] ==1] 
class2 y = [x[1] for i,x in enumerate(x vals) if iris. 
target [1] ==1] 
class3 x = [x[0] for i,x in enumerate(x vals) if iris. 
target [i] ==2] 
class3 y = [x[1] for i,x in enumerate (x vals) if iris. 


target [1] ==2] 


3. 5455RANARE, SESW, MEXHIT KEHTNA. Eels Fl FASS SiBAreshapefeA— AIT 
算 所 有 的 三 类 SVM。 注 意 ， 由 于 一 次 性 计算 所 有 分 类 ，y_target 占 位 符 的 维度 是 [3，None]， 模 型 变量 b 初 始 化 大 小 为 
[3, batch size]， 代 码 如 下 : 


batch size = 50 


x data = tf.placeholder(shape-[None, 2], dtype=tf.float32) 

y target = tf.placeholder(shape-[3, None], dtype-tf.float32) 
prediction grid - tf.placeholder(shape-[None, 2], dtype-tf. 
float32) 


b = tf.Variable(tf.random normal (shape=[3,batch sizel)) 


4. 计 算 高 斯 核 函 数 。 因 为 该 核 函 数 只 依赖 x_data， 所 以 代码 与 4.5 节 没有 区 别 ， 代 码 如 下 : 


gamma = tf.constant(-10.0) 
dist = tf.reduce sum(tf.square(x data), 1) 
dist - tf.reshape(dist, [-1,1]) 


sq dists = tf.add(tf.sub(dist, tf.mul(2., tf.matmul(x data, 
tf.transpose(x data)))), tf.transpose (dist)) 


my kernel - tf.exp(tf.mul(gamma, tf.abs(sq dists))) 


5. 最 大 的 变化 是 批量 矩阵 乘法 。 最 终 的 结果 是 三 维和 矩阵 ， 并 且 需 要 传播 算 阵 乘法 。 所 以 数据 和 矩阵 和 目标 算 阵 需要 预 处 理 ， 比 如 


xT.X 操 作 需 额外 增加 一 个 维度 。 这 里 创建 一 个 为数 来 扩展 和 矩阵 维度 ， 然 后 进行 矩阵 转 置 ， 接 着 调用 TensorFlow 的 
tf.batch matmul () 国 数 ， 代 码 如 下 : 


def reshape matmul (mat): 
vl - tf.expand dims(mat, 1) 
v2 = tf.reshape(v1, [3, batch size, 1]) 
return(tf.batch matmul(v2, v1)) 


6.1 ORAL, PURBROT : 


model output = tf.matmul(b, my kernel) 
first term - tf.reduce sum(b) 

b vec cross - tf.matmul(tf.transpose(b), b) 
y target cross = reshape matmul(í(y target) 


second term = tf.reduce sum(tf.mul(my kernel, tf.mul(b vec cross, 
y target cross)),[1,2]) 


loss - tf.reduce sum(tf.neg(tf.sub(first term, second term))) 


7. 现 在 创建 预测 核 函 数 。 要 当心 reduce sum () 函数 ， 这 里 我 们 并 不 想 聚 合 三 个 SVM 预 测 ， 所 以 需要 通过 第 二 个 参数 告诉 
TensorFlow 求 和 哪 几 个 ， 代 码 如 下 : 


rA = tf.reshape(tf.reduce sum(tf.square(x data), 1), [-1,1]) 


rB = tf.reshape(tf.reduce sum(tf.square(prediction grid), 1),l- 
1,11) 


pred sq dist = tf.add(tf.sub(rA, tf.mul(2., tf£.matmul (x data, 
tf.transpose(prediction grid)))), tf.transpose(rB)) 


pred kernel = tf.exp(tf.mul(gamma, tf.abs(pred sq dist))) 


8. 实 现 预 测 核 消 数 后 ， 我 们 创建 预测 函数 。 与 4.5 节 不 同 的 是 ， 不 再 对 模型 输出 进行 sign () 运算 。 因 为 这 里 实现 的 是 一 对 多 方 
法 ， 所 以 预测 值 是 分 类 器 有 最 大 返回 值 的 类 别 。 使 用 TensorFlow 的 内 建 函数 argmax () 来 实现 该 功能 ， 代 码 如 下 : 


prediction output = tf.matmul(tf.mul(y target,b), pred kernel) 


prediction = tf.arg max(prediction output-tf.expand dims (tf. 
reduce mean(prediction output,1), 1), 0) 

accuracy - tf.reduce mean(tf.cast(tf.equal(prediction, 
tf.argmax(y target,0)), tf.float32)) 


IERTA, PARAM, RHA ees I, (BRUT: 


my opt = tf.train.GradientDescentOptimizer (0.01) 
train step = my opt.minimize (loss) 

init = tf.initialize all variables () 
sess.run(init) 


10. 访 算法 收敛 得 相当 快 ， 所 以 运 代 训练 的 次 数 不 要 超过 100 次 ， 代 码 如 下 : 


loss vec = [] 
batch accuracy - [] 
for i in range(100): 
rand index - np.random.choice(len(x vals), size-batch size) 
rand x - x vals[rand index] 
rand y - y vals[:,rand index] 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y]) 
loss vec.append(temp loss) 


acc temp = sess.run(accuracy, feed dict={x data: rand x, y 


target: rand y, prediction grid:rand x}) 
batch accuracy.append(acc temp) 


IL (141) *25550: 
print('Step #' + str(i+l1)) 
print('Loss = ' + str(temp loss)) 
Step #25 
Loss = -2.8951 
Step #50 
Loss = -27.9612 
Step #75 
Loss = -26.896 
Step #100 
Loss = -30.2325 


11.8] 8250s RAIS, ITM, fURBRUT: 


x min, x max = x vals[:, 0] .min() - 1, x vals[:, 0] .max() + 1 

y min, y max = x vals[:, 1].min() - 1, x vals[:, 1].max() + 1 

Xx, yy - np.meshgrid(np.arange(x min, x max, 0.02), 

np.arange(y min, y max, 0.02)) 

grid points - np.c [xx.ravel(), yy.ravel()] 

grid predictions = sess.run(prediction, feed dict={x data: rand x, 
Y Carget: 

rand y, 
prediction 


grid: grid points}) 
grid predictions - grid predictions.reshape (xx.shape) 


12. 绘 制 训练 结果 、 批 量 准确 度 和 损失 函数 ( 见 图 4-10) 。 为 了 简便 ， 只 显示 训练 结果 : 


plt.contour£ (xx, yy, grid predictions, cmap-plt.cm.Paired, 
alpha-0.8) 


plt. 
.plot (class2 x, class2 y, 'kx', label-'I. versicolor') 
DLE. 
pic. 
.xlabel('Pedal Length' ) 
.ylabel ('Sepal Width') 
plt. 
.ylim([-0.5, 3.0]) 
.xlim([3.5, 8.5]) 
DIC., 


plt 


plt 
plt 
plt 
plt 


DLE 


DLE: 
plt. 


plt 


plt 


DLC 
plt 


plot (class1 x, classi y, 'ro', label-'I. setosa') 
plot (class3 x, class3 y, 'gv', label-'I. virginica') 
title('Gaussian SVM Results on Iris Data!) 


legend (loc='lower right') 


show () 


.plot (batch accuracy, 'k-', label='Accuracy') 


title('Batch Accuracy') 
xlabel ('Generation' ) 


.ylabel ('Accuracy') 
DIT. 
DLL, 


legend(locs2'lower right') 
show () 


.plot (loss vec, 'k-') 
DLL, 


title('Loss per Generation!) 


.xlabel ('Generation' ) 
.ylabel('Loss') 
BRE. 


show ( ) 


Gaussian SVM Results on Iris Data 


Sepal Width 


e o |. setosa 


x x L versicolor 
v v |. virginica 
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Pedal Length 


图 4-10 WB £746 (LSetosa) 非 线性 高 斯 SVM 模型 的 多 分 类 (三 类 ) 结果 ， 其 中 gamma 值 为 10 


4.6.3 ”工作 原理 


本 节 的 重点 是 改变 SVM 算 法 一 次 性 优化 三 类 SVM 模 型 。 模 型 参数 b 通 过 增加 一 个 维度 来 计算 三 个 模型 。 我 们 可 以 看 到 ， 使 用 
TensorFlow 内 建功 能 可 以 轻松 扩展 算法 到 多 类 的 相似 算法 。 


om ”最 近邻 域 法 


本 章 主 要 关注 最 近邻 域 法 ， 以 及 在 TensorFlow 中 如 何 实现 该 算 去 。 首 先 介绍 最 近邻 域 法 和 不 同形 式 的 实现 方法 ， 然 后 在 本 章 结 尾 
处 将 最 近邻 域 法 应 用 于 地 址 匹配 和 图 像 识 别 中 。 学 完 本 章 将 掌握 以 下 知识 点 : 


最 近邻 域 法 的 使 用 
: 如 何 度量 文本 距离 
.TensofFlow 实 现 混合 距离 
- TensotFlow 实 现 地 址 匹配 


.TenhsofFlow 实 现 图 像 识 别 


注意 ， 本 章 的 代码 可 以 在 GitHub (https:;//github.com/nfmcclure/tensorflow cookbook) 上 访问 。 


5.1. fi Bora 


最 近邻 域 算 法 的 思想 很 简单 ， 其 先 将 训练 集 看 作 训练 模型 ， 然 后 基于 新 数据 点 与 训练 集 的 距离 来 预测 新 数据 点 。 最 直观 的 最 近 仿 
域 算法 是 让 预测 值 与 最 接近 的 训练 数据 集 作 为 同一 类 。 但 是 大 部 分 样本 数据 集 包 含 一 定 程度 的 噪声 ， 更 通用 的 方法 是 k 个 邻 域 的 加 权 平 
均 ， 访 方法 称 为 k 最 近邻 域 法 (k-nearest neighbor, k-NN) 。 

假设 样本 训练 集 (x1，x2，...，xn) ， 对 应 的 目标 值 (y1，y?，.…，yn) ， 通 过 最 近邻 域 法 预测 数据 点 z。 预 测 的 实际 方法 取决 于 
我 们 是 想 做 回归 训练 (连续 型 y;) 还 是 分 类 训练 (离散 型 yj) 。 


对 于 离散 型 分 类 目标 ， 预 测 值 由 到 预测 数据 点 的 加 权 距 离 的 最 大 投票 方案 决定 ， 公 式 如 下 : 


Hh, PWR (z) 是 所 有 分 类 j 上 的 最 大 加 权 值 。 预 测 数据 点 到 训练 数据 点 i 的 加 权 距 离 用 Pp (dj) 表示 。 上 i 是 捐 示 销 数 ， 表 示 


数据 点 是否 属 于 分 类 j。 


对 于 连续 回归 训练 目标 ， 预 测 值 是 所 有 k 个 最 近邻 域 数据 点 到 预测 数据 点 的 加 权 平 均 ， 公 式 如 下 : 


f(z)== Ded) 


i=] 


明显 地 ， 预 测 值 严 重 依赖 距离 度量 (d) Ora. SÍFBBSEEESIESSZRLTTOAAAULZBEM. AIR: 


d, (x, x) — |x, Xj 


2 2 
dX; x) -|x -x = (x; — X4) + (x —X,) Leya 


距离 度量 方式 可 选择 性 广 ， 但 是 在 本 节 ， 将 使 用 L1 范 数 和 L2 范 数 ， 也 会 使 用 编辑 距离 和 文本 距离 。 


我 们 也 需要 选择 如 何 加 权 距 离 。 最 直观 的 万 式 是 用 距离 本 身 来 加 权 ， 即 加 权 权 重 为 1。 考 虑 到 更 近 的 数据 点 对 预测 数据 点 的 预测 值 
影响 应 该 更 小 ， 因 而 最 通用 的 加 权 方 式 是 距离 的 归 一 化 倒数 。 下 一 节 将 实现 该 万 法 。 


Wn 4 


X 一 注意 ，k-NN 算 法 是 一 种 聚合 的 方法 。 对 于 回归 算法 来 说 ， 需 要 计算 邻 域 的 加 权 平 均 距 离 ， 因 而 预测 值 将 比 实际 目标 值 的 特 
征 更 平缓 。 影 响 的 程度 将 取决 于 k 值 ， 该 值 是 工法 中 的 领域 的 个 数 。 


5.2 ”最 J 折 邻 域 去 的 使 用 


本 小 节 开 始 介 绍 最 近邻 域 法 的 实现 ， 并 应 用 到 房价 的 预测 。 也 许 这 是 学 习 最 近邻 域 法 最 好 的 方式 ， 因 为 我 们 将 处 理 数 值 化 的 特征 


和 连续 型 目标 。 


5.2.1 ”开始 


为 了 展示 在 TensorFlow 中 如 何 运 用 最 近邻 域 法 预测 ， 我 们 将 进行 波士顿 房价 数据 集训 练 。 这 里 将 利用 几 个 特征 的 函数 来 预测 平均 
邻 域 房价 。 


我 们 将 从 训练 好 的 模型 的 训练 数据 集中 找到 预测 数据 点 的 最 近邻 域 ， 并 对 实际 值 进行 加 权 平 均 。 


5.2.2 动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 。 我 们 将 使 用 Python 的 requests 模 块 ， 从 UCI 机 器 学 习 仓 库 加 载 所 需 的 波士顿 房价 数 
据 集 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 
import tensorflow as tf 


import requests 


sess = tf.Session() 


2. 使 用 requests 模 块 加 载 数据 集 ， 代 码 如 下 : 


housing url = 'https://archive.ics.uci.edu/ml/machine-learning- 
databases/housing/housing.data'' 

housing header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 
'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV!'] 
cols used = ['CRIM', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'TAX', 
'PTRATIO', 'B', 'LSTAT'] 

num features = len(cols used) 


# Request data 

housing file = requests.get (housing url) 

# Parse Data 

housing data = [[float(x) for x in y.split(' ') if len(x)>=1] for 
y in housing file.text.split('\n') if len(y)»-1] 


3. 分 离 数据 集 为 特征 依赖 的 数据 集 和 特征 无 天 的 数据 集 。 我 们 将 预测 最 后 一 个 变量 一 一 MEDV， 该 值 为 一 组 房价 中 的 平均 值 。 由 
于 非 相关 特征 或 者 二 值 特征 ， 在 本 例 中 不 使 用 AN、CHAS 和 RAD 这 几 个 特征 ， 代 码 如 下 : 


y vals = np.transpose([np.array([y[13] for y in housing datal)l) 
x vals = np.array([l[x for i,x in enumerate(y) if housing header [i] 
in cols used] for y in housing data]) 


x vals = (x vals - x vals.min(0)) / x vals.ptp(0) 


4. 分 离 x_vals 值 和 y_vals 值 为 训练 数据 集 和 测试 数据 集 。 随 机 选择 80% 的 行 作为 训练 集 ， 剩 下 的 20% 数 据 行 作为 测试 集 ， 代 码 如 


F: 
train indices = np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 
test indices - np.array(list(set(range(len(x vals))) - set(train 
indices))) 


x vals train - x vals[train indices] 
x vals test - x vals[test indices] 
y vals train = y vals[train indices] 
y vals test - y vals[test indices] 


5. 声 明 k 值 和 批量 大 小 : 


k = 4 
batch size=len(x vals test) 


6. 声 明 占 位 符 。 注 意 ， 本 例 中 没有 训练 模型 变量 ， 算 法 模型 完全 是 通过 训练 集 决 定 的 ， 代 码 如 下 : 


x data train = tf.placeholder (shape= [None, num features], 
dtype-tf.float32) 

x data test = tf.placeholder(shape-[None, num features], dtype-tf. 
Float32) 

y target train = tf.placeholder(shape-[None, 1], dtype-tf.float32) 


y target test = tf.placeholder(shape-[None, 1], dtype=tf.float32) 


7. 为 批量 测试 集 创建 距离 消 数 ， 这 里 使 用 L1 泡 数 距离 ， 代 码 如 下 : 


distance = tf.reduce sum(tf.abs(tf.sub(x data train, tf.expand 
dims(x data test,1))), reduction indices-2) 


大 一 注意 ，L2 范 数 距 离 函 数 也 经 常 使 用 ， 代 码 为 : 


distance = tf.sqrt(tf.reduce sum(tf.square(tf. 
sub(x data train, tf.expand dims(x data test,1))), 
reduction indices-1)) 


8.8 EEG ERN. ZAG, TSfsSFdtop k () KA, RUKEA züRIBIE AGNES |. AARRE], Br 
LAEDSHSCKEBRESHMOA. AAIR BESAR (MSE) ， 代 码 如 下 : 


top k xvals, top k indices = tf.nn.top k(tf.neg(distance), k=k) 


x sums - tf.expand dims(tf.reduce sum(top k xvals, 1),1) 
x sums repeated = tf.matmul(x sums,tf.ones([1, k], tf.f10oat32)) 
x val weights = tf.expand dims(tf.div(top k xvals,x sums _ 


repeated), 1) 


top k yvals - tf.gather(y target train, top k indices) 

prediction = tf.squeeze(tf.batch matmul (x val weights,top k 
yvals), squeeze dims=[1] ) 

mse = tf.div(tf.reduce sum(tf.square(tf.sub(prediction, y target 
test))), batch size) 


9. 进 行 测试 ， 代 码 如 下 : 


num loops = int(np.ceil(len(x vals test)/batch size)) 


for i in range (num loops): 

min index - i*batch size 

max index = min((i-1)*batch size,len(x vals train) ) 

x batch - x vals test[min index:max index] 

y batch - y vals test[min index:max index] 

predictions = sess.run(prediction, feed dict={x data train: 
X vals train, x data test: x batch, y target train: y vals train, 
y target test: y batch]) 

batch mse = sess.run(mse, feed dict={x data train: x vals 
train, x data test: x batch, y target train: y vals train, y 
target test: y batch]) 


print('Batch #'' + str(i+1) + '' MSE: '' + str(np.round (batch _ 
mse,3))) 


Batch #1 MSE: 23.153 


10. 下 面 通 过 直方 图 ( 见 图 5-1) 来 比较 实际 值 和 预测 值 。 因 为 本 例 使 用 的 是 平均 方法 ， 所 以 在 预测 目标 值 最 大 和 最 小 极 值 时 遇 到 
问题 ， 代 人 码 如 下 : 


bins = np.linspace(5, 50, 45) 


plt.hist (predictions, bins, alpha=0.5, label='Prediction'') 
plt.hist(y batch, bins, alpha=0.5, label='Actual'') 
plt.title('Histogram of Predicted and Actual Values'') 
plt.xlabel('Med Home Value in $1,000s'') 

plt.ylabel ('Frequency' ') 

plt.legend(loc='upper right'') 

plt.show() 


Histogram of Predicted and Actual Values 
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图 5-1 预测 值 和 实际 值 对 比 的 直方 图 (k-NN 算 法 ， 其 中 k=4) 


11.k 的 取 值 是 个 难点 。 对 于 图 ?-1 中 的 预测 ， 我 们 选用 k= 4 进行 模型 训练 。 选 取 该 值 的 原因 是 ， 通 过 人 交叉 验证 ， 其 使 得 ME 最 低 。 
如 果 使 用 交叉 验证 来 选取 多 个 K 值 对 比 ， 我 们 将 看 到 k=4 时 ，MSE 值 最 小 ， 见 图 5-2。 同 时 ， 也 值得 绘制 预测 值 随 k 值 变化 的 预测 方 
差 ， 因 为 其 可 以 显示 平均 更 多 的 邻 域 数据 点 时 预测 方差 也 会 减 小 。 


5.2.3 ”工作 原理 


在 最 近邻 域 算法 中 ， 模 型 是 训练 数据 集 ， 所 以 在 训练 模型 中 没有 任何 变量 训练 。 只 有 一 个 参数 K， 通 过 交叉 验证 法 最 小 化 ME 来 


确定 。 


5.2.4 ”延伸 学 习 


对 于 k-NN 算 法 的 权重 ,我 们 选择 的 是 距离 的 本 身 。 另 外 也 有 一 些 其 他 的 权重 选取 方法 ， 常 用 平方 距离 的 倒数 作为 权重 。 


MSE and Prediction Variance vs k 
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图 5-2” 随 k 值 变化 的 k-NN 预 测 的 MSE 值 。 我 们 也 绘制 测试 集 预测 值 的 预测 方差 。 注 意 ， 随 着 k 值 增 大 ， 预 测 方 差 变 小 


5.3 如何 度量 文本 距离 


除了 处 理 数 值 外 ， 最 近邻 域 法 还 广泛 应 用 于 其 他 领域 。 只 要 有 方法 来 度量 距离 ， 即 可 应 用 最 近邻 域 算 法 。 本 节 将 介绍 如 何 使 用 
TensorFlow 度 量 文 本 距离 。 


5.3.1 开始 


本 节 将 展示 如 何 使 用 TensorFlow 的 文本 距离 度量 一 一 字符 串 间 的 编辑 距离 (Levenshtein 距 离 ) 。 这 将 对 后 续 章 节 扩 展 最 近邻 域 
法 很 有 帮助 。 

Levenshtein 距 离 是 指 由 一 个 字符 串 转 换 成 另 一 个 字符 串 所 需 的 最 少 编辑 操作 次 数 。 人 允许 的 编辑 操作 包括 插入 一 个 字符 ， 删 除 一 
个 字符 和 将 一 个 字符 蔡 换 成 另 一 个 字符 。 本 节 将 使 用 TensorFlow 的 内 建国 数 edit distance () 求解 Levenshtein 距 离 。 本 节 将 展示 该 
国 数 的 使 用 ， 后 续 章 节 会 有 应 用 。 


3 v 
SE 


~ig, TensorFlow87 A £ E Ztedit distance () BUDE ZRAKE. Aw, RME FI E RIAR. 


5.3.2 ”动手 做 


1. 加 载 TensorFlow， 初 始 化 一 个 计算 图 会 话 ， 代 人 码 如 下 : 


import tensorflow as tf 
sess = tf.Session() 
2. 展 示 如 何 计算 两 个 单词 'bear 和 'beer 间 的 编辑 距离 。 用 Python 的 list () MAAS Ist, Amistar — 4E RE 


WE, TensorFlowBStf.SparseTensor () 函数 需 指定 字符 索引 、 矩 阵 形 状 和 张 量 中 的 非 零 值 。 编 辑 距离 计算 时 ， 指 定 normalize=False 
表示 计算 总 的 编辑 距离 ; 指定 normalize=True 表 示 计 算 归 一 化 编辑 距离 ， 通 过 编辑 距离 除 以 第 二 个 单词 的 长 度 进行 归 一 化 ， 代 码 如 


TensotFlow 文 档 把 两 个 字符 串 处 理 为 参考 字符 串 (hypothesis) 和 真实 字符 串 (ground truth) 。 本 例 标 记 为 h 张 量 和 t 张 量 。 


hypothesis = list('bear'') 

truth = list('beers'') 

hl = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3]], 
hypothesis, [1,1,1]) 


tl = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3],[0,0,4]], 
truth, [1,1,1]) 


print (sess.run(tf.edit distance(h1, t1, normalize=False) ) ) 


3. 编 辑 距 离 计 算 结果 如 下 : 


[[ 2.1] 


Ñ ~TensotFlow #JSparseTensorValue () 函数 是 创 建 稀 朴 张 量 的 方法 ， 要 传 入 所 需 创 建 的 稀 牙 张 量 的 索引 、 值 和 形状 大 小 。 


4. 下 面 演示 比较 两 个 单词 bear 和 beer 与 另 一 个 单词 beers。 为 了 做 比较 ， 需 要 重复 beers 使 得 比较 的 单词 有 相同 的 数量 ， 代 码 如 
RB: 


hypothesis2 = list('bearbeer' ) 

truth2 = list('beersbeers') 

h2 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3], [0,1,0], 
[0,1,1], [0,1,2], [0,1,3]], hypothesis2, [1,2,4]) 

t2 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3], [0,0,4], 
LO, eu. DOS. sets Zle l3; ID.19]15 Erue; [1.2551 


print (sess.run(tf.edit distance(h2, t2, normalize=True) ) ) 


5. 结 果 如 下 : 


Tf 0.40000001 0.2 ] ] 


6 下面 介 绍 一 个 例子 ， 讲 解 另外 一 种 更 有 效 地 比较 一 个 单词 集合 与 单个 单词 的 方法 。 事 先 为 参考 字符 串 (hypothesis) 和 真实 字 
FFE (ground) 创建 索引 和 字符 列表 ， 代 码 如 下 . 


hypothesis words = ['bear','bar','tensor','flow!] 
truth word = ['beers'']| 

num h words - len(hypothesis words) 

h indices = [[xi, 0, yi] for xi,x in enumerate (hypothesis words) 
for yi,y in enumerate (x)] 

h chars - list('''.join(hypothesis words)) 

h3 = tf.SparseTensor(h indices, h chars, [num h words,1,1]) 

truth word vec - truth word*num h words 

t indices = [[xi, 0, yi] for xi,x in enumerate(truth word vec) for 
yi,y in enumerate (x) ] 

t chars = list('''.join(truth word vec) ) 

t3 = tf.SparseTensor(t indices, t chars, [num h words,1,1]) 


print (sess.run(tf.edit distance(h3, t3, normalize-True))) 
7. 结 果 如 下 : 


[[ 0.40000001] 
[ 0.60000002] 
[ 0.80000001] 
[ 1. ] ] 


8. 展 示 如 何 用 占 位 符 来 计算 两 个 单词 列表 间 的 编辑 距离 。 基 本 思路 是 一 样 的 ， 不 同 的 是 现在 用 SparseTensorValue () R5 
的 稀疏 张 量 。 首 先 ， 创 建 一 个 国 数 ， 该 国 数 根据 单词 列表 ， 输 出 稀 玻 张 量 ， 代 码 如 下 : 


def create sparse vec(word list): 

num words - len(word list) 

indices = [[xi, 0, yi] for xi,x in enumerate(word list) for 
yi,y in enumerate (x) ] 

chars = list('''.join(word list) ) 

return (tf£.SparseTensorValue (indices, chars, [num words,1,1]) ) 


hyp string sparse = create sparse vec(hypothesis words) 
truth string sparse = create sparse vec(truth word*len(hypothesis _ 
words) ) 


hyp input = tf.sparse placeholder (dtype=tf.string) 
truth input = tf.sparse placeholder (dtype=tf.string) 


edit distances = tf.edit distance (hyp input, truth input, 
normalize-True) 


feed dict = {hyp input: hyp string sparse, 
truth input: truth string sparsej 


print (sess.run(edit distances, feed dict=feed dict)) 


9. 输 出 结果 如 下 : 


[| 0.40000001 
[ 0.60000002 
[ 0.80000001 
[ 1. 


Ll  L.—1 L1 — LJ 


5.3.3 ”工作 原理 


本 节 展 示 了 使 用 TensorFlow 计 算 文 本 距离 的 几 种 方法 。 这 对 文本 特征 数据 进行 最 近邻 域 法 训练 非常 有 帮助 。 本 章 后 续 的 地 址 匹配 
应 用 中 也 会 用 到 这 些 方法 。 


5.3.4 ”延伸 学 习 


这 里 过 论 一 下 文本 距离 的 硫 量 方式 ， 下 面 是 各 种 文本 距离 的 定义 ， 假 设 字符 串 sS1 和 s2。 


名 称 fü o X / — x 
两 个 等 长 字符 串 中 对 应 位 置 的 不 同 字符 的 | D (s,s,)=>,1,， 其 中 I 是 等 长 字 


汉 明 距离 (Hamming distance) 


个 数 AF FR BJ d ZI PRI 
不 同 k-gram 的 点 积 除 以 不 同 k-gram 的 L2 AS) 
Arp + Tr . . 4 D V^ = [= 
RIP (Cosine distance) 范 数 (51, 5) ICs IG, ) 
S. [V8 
Jaccard 距离 (Jaccard distance) | ”两 个 字符 串 中 相同 学 符 数 除 以 所 有 字符 数 D (si s,) = U ` 
] 2 


54 用 TensorFlow 实 现 混合 距 负 计算 


当 处 理 的 数据 观测 点 有 多 种 特征 时 ， 我 们 应 该 意识 到 不 同 的 特征 应 该 用 不 同 的 归 一 化 方式 来 缩放 。 本 节 将 用 此 思路 来 优化 房价 预 
测 值 。 


5.4.1 开始 


p: 


扩展 最 近邻 域 法 进行 多 维 厦 缩 放 。 在 本 例 中 ， 我 们 将 展示 如 何 扩 展 多 变量 的 距离 函数 。 特 别 地 ， 我 们 将 扩展 距离 为 数 为 特征 变 
APEX. 


MANGE Ss PR SAN SCH ESE FSA, DAR PAYER es AAIR ANAN T : 


D (x, y) =; (x-y) A (x-y) 


其 中 ，A 是 对 角 权 重 上 所 阵 。 


在 本 已 中 ， 我 们 将 试看 优化 波士顿 房价 数据 集 的 MSE。 该 数据 集 的 特征 维 硫 不 同 ， 所 以 缩放 后 的 距离 阔 数 对 最 近邻 工法 有 利 。 


5.4.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

import requests 

sess = tf.Session() 


ote, früü/jnumpyZXH. PARIER, RAI RSE, Mend Skane wee, SE: 


housing url = 'https://archive.ics.uci.edu/ml/machine-learning- 
databases/housing/housing.data'' 

housing header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 
'"'AGE'!, 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] 
cols used = ['CRIM', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'TAX', 
'PTRATIO', 'B', 'LSTAT'] 

num features - len(cols used) 

housing file = requests.get(housing url) 

housing data - [[float(x) for x in y.split(' ') if len(x)»-1] for 


y in housing file.text.split('\n') if len(y)»-1] 
y vals = np.transpose([np.array([yl[13] for y in housing datal)]) 


x vals = np.array([[x for i,x in enumerate(y) if housing header [i] 
in cols used] for y in housing data]) 


3. 用 min-max 缩 放 法 缩放 x_vals 值 到 0 和 1 之 间 ， 代 码 如 下 : 
x vals = (x vals - x vals.min(0)) / x vals.ptp(0) 


4. 创 建 对 角 权 重 和 矩阵 ， 该 矩阵 提供 归 一 化 的 距离 度量 ,其 值 为 特征 的 标准 差 ， 代 码 如 下 : 


weight diagonal = x vals.std(0) 


weight matrix = tf.cast(tf.diag(weight diagonal), dtype=tf. 
tfloat32) 


5. 分 割 | 数据 集 为 训练 集 和 测试 集 。 声 明 k 值 ， 该 值 为 最 近邻 域 的 数量 。 设 置 批量 大 小 为 测试 集 大 小 ， 代 码 如 下 : 


train indices = np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 

test indices - np.array(list(set(range(len(x vals))) - set(train 
indices))) 

x vals train - x vals[train indices] 

x vals test - x vals[test indices] 

y vals train - y vals[train indices] 

y vals test - y vals[test indices] 

k = 4 

batch size-len(x vals test) 


6. 声 明 所 需 的 占 位 符 。 占 位 符 有 四 个 ， 分 别 是 训练 集 和 测试 集 的 x 值 输入 和 y 目 标 输入 ， 代 码 如 下 : 


x data train = tf.placeholder(shape-[None, num features], 
dtype-tf.float32) 

x data test = tf.placeholder(shape-[None, num features], dtype-tf. 
float32) 

y target train - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
y target test = tf.placeholder(shapes[None, 1], dtypestf.float32) 


T.FRBHEEESBRZA. ASHES, Re EBEDREUOER te, ADUsSzetf.tileBgS 731 EB ETREEbDatch sizetey fe. E 
Fabatch matmul () 函数 进行 批量 和 矩阵 乘法 ， 代 码 如 下 : 


subtraction term = tf.sub(x data train, tf.expand dims (x data 
test,1)) 

first product = tf.batch matmul (subtraction term, tf.tile(tf. 
expand dims (weight matrix,0), [batch size,1,1])) 

second product = tf.batch matmul (first product, 

tf.transpose (subtraction term, perm=[0,2,1]))} 

distance = tf.sqrt(tf.batch matrix diag part (second product) ) 


8. 计 算 完 每 个 测试 数据 点 的 距离 ， 需 要 返回 kK-NN 法 的 前 k 个 最 近邻 域 (使 用 tf.nn.top k () 国 数 ) 。 因 为 tf.nn.top k () Rieu 
回 最 大 值 ， 而 我 们 需要 的 是 最 小 距离 ， 所 以 转换 成 返回 距离 负 值 的 最 大 值 。 然 后 将 前 k 个 最 近 领 5 域 的 距离 进行 加 权 平 均 做 预测 ， 代 码 如 
RB: 


top k xvals, top k indices = tf.nn.top k(tf.neg(distance), k=k) 


x sums - tf.expand dims(tf.reduce sum(top k xvals, 1),1) 
x sums repeated = tf.matmul(x sums,tf.ones([1, k], tf.f10at32)) 
x val weights - tf.expand dims(tf.div(top k xvals,x sums 


repeated), 1) 

top k yvals - tf.gather(y target train, top k indices) 
prediction - tf.squeeze(tf.batch matmul(x val weights,top k 
yvals), squeeze dims=[1] ) 


9. 计 算 预 测 值 的 MSE， 评 估 训 练 模 型 ,代码 如 下 : 


mse = tf.div(tf.reduce sum(tf.square(tf.sub(prediction, y target _ 
test))), batch size) 


10. 志 历 欠 代 训练 批量 测试 数据 ， 每 次 欠 代 计算 其 MSE， 代 码 如 下 : 


num loops = int(np.ceil(len(x vals test)/batch size)) 
for i in range(num loops): 

min index - i*batch size 

max index = min((i+1)*batch size,len(x vals train)) 

x batch - x vals test[min index:max index] 

y batch = y vals test[min index:max index] 

predictions = sess.run(prediction, feed dict={x data train: 
x vals train, x data test: x batch, y target train: y vals train, 
y target test: y batch]) 

batch mse = sess.run(mse, feed dict={x data train: x vals 
train, x data test: x batch, y target train: y vals train, y 
target test: y batch]) 


print('Batch #'' + str(i+1) + '' MSE: '' + str(np.round(batch _ 
mse,3))) 


11. 输 出 结果 如 下 : 
Batch #1 MSE: 21.322 


12. 为 了 最 终 对 比 ， 我 们 绘制 测试 数据 集 的 房价 分 布 和 测试 集 上 的 预测 值 的 分 布 〈 见 图 ?-3) ， 代 码 如 下 : 


bins = np.linspace(5, 50, 45) 


plt.hist (predictions, bins, alpha=0.5, label='Prediction'') 
plt.hist(y batch, bins, alpha=0.5, label='Actual'') 


pit 
plt 
plt 


.title('Histogram of Predicted and Actual Values'') 
.Xlabel('Med Home Value in $1,000s'') 

.ylabel ('Frequency'') 

pit. 
plt. 


legend(loc='upper right'') 
show () 


Histogram of Predicted and Actual Values 
EEE Prediction | 


Eg Actual 


Frequency 


5 10 15 20 353 3 3 40 45 50 
Med Home Value in $1,000s 


图 5-3 ”波士顿 房价 的 预测 值 和 实际 值 的 分 布 直方 图 。 本 图 中 对 特征 进行 了 距离 缩放 


5.4.3 ”工作 原理 


通过 对 特征 的 距离 进行 缩放 ， 减 小 测试 数据 集 的 MSE。 本 例 中 使 用 的 是 特征 的 标准 差 因子 来 缩放 距离 阔 数 ， 并 且 对 top k 邻 域 进 
行 加 权 平 均 作 为 距离 阔 数 来 进行 房价 预测 。 


54.4 ”延伸 学 习 


缩放 因子 可 以 加 强 或 者 减弱 最 近邻 域 距 离 计算 中 特征 的 权重 ， 这 更 符合 实际 特征 的 作用 。 


5.5 用 TensorFlow 实 现 地 址 匹配 


完 数值 距离 和 文本 距离 ， 现 在 我 们 将 化 点 时 间 结 合 两 者 来 度量 既 包含 文本 特征 又 包含 数值 特征 的 数据 观测 点 间 的 距离 。 


5.5.1 开始 


最 近邻 域 算法 应 用 在 地 址 匹配 上 是 非常 有 效 的 。 地 址 匹配 是 一 种 记录 匹配 ， 其 匹配 的 地 址 涉及 多 个 数据 集 。 在 地 址 匹配 中 ， 地 址 
中 有 许多 打印 错误 ， 不 同 的 城市 或 者 不 同 的 邮政 编码 ， 但 是 指向 同一 个 地 址 。 使 用 最 近邻 域 算法 综合 地 址 信息 的 数值 部 分 和 字符 部 分 
可 以 帮助 鉴定 实际 相同 的 地 址 。 


本 例 将 生成 两 个 模拟 数据 集 ， 每 个 数据 集 包 含 街 道 地 址 和 邮政 编码 。 其 中 ， 有 一 个 数据 集 的 街道 地 址 有 大 量 的 打印 错误 。 我 们 将 
准确 的 地 址 数据 集 作为 “ 金 标准 ”， 为 每 个 有 打印 错误 的 地 址 返回 一 个 最 接近 的 地 址 ， 采 用 综合 字符 距离 (街道) 和 数值 距离 (邮政 
编码 ) 的 距离 阔 数 度量 地 址 间 的 相似 程度 。 


代码 的 第 一 部 分 是 生成 模拟 数据 集 。 第 二 部 分 是 训练 测试 数据 集 ， 从 训练 数据 集中 返回 最 接近 的 地 址 。 


5.5.2 ”动手 做 


1. 先 导入 必要 的 编程 库 ， 代 码 如 下 : 

import random 

import string 

import numpy as np 
import tensorflow as tf 


2. 创 建 参考 数据 集 。 为 了 显示 简洁 的 输出 ， 每 个 数据 集 仅 仪 由 10 个 地 址 组 成 ， 不 过 更 多 数据 量 也 适用 ， 代 码 如 下 : 


n = 10 

street names = ['abbey', 'baker', 'canal', 'donner', 'elm'] 
street types = ['rd', 'st', 'ln', 'pass', ‘'ave'] 

rand zips = [random.randint(65000,65999) for i in range(5) ] 
numbers = [random.randint (1, 9999) for i in range (n)] 

streets = [random.choice(street names) for i in range (n)] 
street suffs = [random.choice(street types) for i in range (n) ] 
Zips = [random.choice(rand zips) for i in range(n) ] 

full streets = [str(x) + ' ' +y + ' ' + Zz for x,y,z in 


zip(numbers, streets, street suffs) ] 
reference data = [list(x) for x in zip(full streets, zips) ] 


3. 为 了 创建 一 个 测试 数据 集 ， 我 们 需要 一 个 随机 创建 “打印 错误 ”的 字符 串 函数 ， 然 后 返回 结果 字符 串 ， 代 码 如 下 : 


def create typo(s, prob=0.75): 
if random.uniform(0,1) « prob: 
rand ind = random.choice(range(len(s))) 
s list - list(s) 
s list[rand ind]-random.choice(string.ascii lowercase) 


a = 2th join LIRL] 
return (s) 
typo streets = [create typo(x) for x in streets] 
typo full streets = [str(x) + ' ' + y+ ! ' + z for x,y,z in 


zip(numbers, typo streets, street suffs)] 
test data - [list(x) for x in zip(typo full streets,zips)] 


4. 初 始 化 一 个 计算 图 会 话 ， 声 明 所 需 的 占 位 待 。 本 例 需要 四 个 占 位 符 ， 每 个 测试 集 和 参考 集 需 一 个 地 址 和 邮政 编码 占 位 符 ， 代 码 
如 下 : 


sess = tf.Session() 

test address - tf.sparse placeholder( dtype-tf.string) 

test zip = tf.placeholder(shape-[None, 1], dtype-tf.float32) 
ref address = tf.sparse placeholder (dtype=tf.string) 

ref zip = tf.placeholder(shape-[None, n], dtype-tf.float32) 


5. 声 明 数 值 的 邮政 编码 距离 和 地 址 字符 串 的 编辑 距离 ， 代 码 如 下 : 


zip dist = tf.square(tf.sub(ref zip, test zip)) 
address dist - tf.edit distance(test address, ref address, 
normalize-True) 


6. 把 邮政 编码 距离 和 地 址 距离 转换 成 相似 度 。 当 两 个 输入 完全 一 致 时 该 相似 度 为 1; 当 它 们 完全 不 一 致 时 为 0。 对 于 邮政 编码 相似 
度 ， 其 计算 方式 为 : 最 大 邮政 编码 减 去 该 邮政 编码 ， 然 后 除 以 邮政 编码 学 围 〈 即 最 大 邮政 编码 减 去 最 小 邮政 编码 的 差 值 ) 。 对 于 地 址 
相似 度 ， 其 值 已 经 是 0 到 1 之 | 间 的 值 ， 所 以 直接 用 1 减 去 其 编辑 距离 大 小 ， 代 码 如 下 : 


zip max = tf.gather(tf.squeeze(zip dist), tf.argmax(zip dist, 1)) 
zip min = tf.gather(tf.squeeze(zip dist), tf.argmin(zip dist, 1)) 


zip sim = tf.div(tf.sub(zip max, zip dist), tf.sub(zip max, zip _ 
min)) 
address sim - tf.sub(1., address dist) 


7. 结 合 上 面 两 个 相似 度 函 数 ， 并 对 其 进行 加 权 平 均 。 在 本 例 中 ， 地 址 和 邮政 编码 的 权重 设 为 相等 (BD, $$790.5) ， 但 我 们 也 可 以 
根据 每 个 特征 的 信誉 大 来 调整 权重 ， 然 后 返回 参考 集 最 大 相似 度 的 奈 引 ， 代 码 如 下 : 


address weight = 0.5 


zip weight - 1. - address weight 
weighted sim - tf.add(tf.transpose(tf.mul(address weight, address 
sim)), tf.mul(zip weight, zip sim)) 


top match index - tf.argmax(weighted sim, 1) 


8. 为 了 在 TensorFlow 中 使 用 编辑 距离 ， 我 们 必须 把 地 址 字符 串 转 换 成 稀 中 癌 量 。 在 本 章 前 面 的 小 节 中 ， 我 们 创建 过 下 面 的 凶 数 来 
进行 稀 玖 和 矩阵 的 转换 ， 代 码 如 下 : 


def sparse from word vec (word vec): 
num words = len (word vec) 
indices = [[xi, 0, yi] for xi,x in enumerate(word vec) for 
yi,y in enumerate (x)] 
chars - list('''.join(word vec)) 
# Now we return our sparse vector 
return(tf.SparseTensorValue(indices, chars, [num words,1,1])) 


9.5] S7 PALABRAS, PA EXEAT VUIERERZJ GE, (ASR: 


reference addresses = [x[0] for x in reference data] 
reference zips = np.array([Ixl1] for x in reference data] ] ) 


10 FRAR OER MISS AES OREM, HME: 


sparse ref set = sparse from word vec(reference addresses) 


11.9 AIDS, RESSRPRRITIANAS|, FEE RASERER. IER NES SIA, Beas A 
的 结果 不 错 ， 代 码 如 下 : 


for i in range (n): 
test address entry = test data[i] [0] 
test zip entry = [[test data[i] [1]]] 


# Create sparse address vectors 
test address repeated = [test address entry] * n 
sparse test set - sparse from word vec(test address repeated) 


feeddict-[test address: sparse test set, 
test zip: test zip entry, 
rer address: sparse rer set, 
ref zip: reference zips} 
best match - sess.run(top match index, feed dict-feeddict) 


best street - reference addresses[best match] 

[best zip] = reference zips[0] [best match] 

[[test zip ]] = test zip entry 

print('Address: '' + str(test address entry) + '', '' + 
str(test zip )) 

print('Match : '' + str(best street) + '', '' + str(best _ 


213) 


12. 输 出 结果 如 下 : 


Address: 8659 beker ln, 65463 
Match 8659 baker ln, 65463 
Address: 1048 eanal ln, 65681 
Match 1048 canal ln, 65681 
Address: 1756 vaker st, 65983 
Match 1756 baker st, 65983 
Address: 900 abbjy pass, 65983 
Match 900 abbey pass, 65983 
Address: 5025 canal rd, 65463 
Match 5025 canal rd, 65463 
Address: 6814 elh st, 65154 
Match 6814 elm st, 65154 
Address: 3057 cagal ave, 65463 
Match 3057 canal ave, 65463 
Address: 7776 iaker ln, 65681 
Match 7776 baker ln, 65681 
Address: 5167 caker rd, 65154 
Match 5167 baker rd, 65154 
Address: 8765 donnor st, 65154 
Match 8765 donner st, 65154 


5.5.3 ”工作 原理 


解决 地 址 匹配 问题 时 会 遇 到 很 多 困难 ， 比 如 ， 权 重大 小 和 如 何 归 一 化 距离 ， 这 些 都 得 根据 实际 数据 选择 解决 方法。 可 能 处 理 地 址 
的 方法 与 刚才 的 方法 不 同 。 比 如 ， 把 街道 地 址 细 化 成 省 市 、 城 市 、 街 道 地 址 和 街道 号 码 。 处 理 数值 地 址 部 分 时 ， 我 们 可 以 将 其 看 成 数 
F (数值 距离 ) 或 者 字符 (编辑 距离 ) ， 这 都 取决 于 如 何 选择 。 注 意 ， 如 果 考虑 人 为 输入 或 者 电脑 输入 错误 ,我们 也 可 以 用 编辑 距离 
国 数 来 处 理 邮 政 编码 。 


为 了 感受 “打印 错误 ”对 结果 的 影响 ， 我 们 鼓励 读者 去 调整 “打印 错误 / 
的 频率 ， 增 加 数据 样本 集 的 大 小 来 查看 算法 的 效果 。 


的 字符 串 阔 数 来 增加 “打印 错误 ”的 数量 或 者 错误 出 现 


5.6_ 用 TensorFlow 实 现 图 像 识别 


5.6.1 开始 
最 近邻 域 算 法 也 常用 于 图 像 识 别 。 图 像 识 别 届 的 “Hello World” 数 据 集 是 M NIST 手 写 数字 样本 数据 集 。 后 续 的 章节 会 使 用 该 数 
据 集 进行 各 种 神经 网 络 图 像 识 别 算法 训练 ， 这 也 和 非 神经 网 络 算法 的 结果 进行 对 比 。 


MNIST 手 写 数字 样本 数据 集 由 上 万 张 28x28 像 素 、 已 标注 的 图 片 组 成 。 虽 然 该 数据 集 不 大 ， 但 是 其 包含 有 784 个 特征 可 供 最 近邻 
域 算法 训练 。 我 们 将 计算 这 类 分 类 问题 的 最 近邻 域 预 测 ， 选 用 最 近 k 邻 域 (本 例 中 ，k=4) 模型 。 


5.6_ 用 TensorFlow 实 现 图 像 识别 


5.6.1 开始 


最 近邻 域 算法 也 常用 于 图 像 识 别 。 图 像 识 别 届 的 “Hello World” 数 据 集 是 M NIST 手 写 数 字样 本 数据 集 。 后 续 的 章节 会 使 用 该 数 
据 集 进行 各 种 神经 网 络 图 像 识 别 算法 训练 ， 这 也 和 非 神 经 网 络 算法 的 结果 进行 对 比 。 


MNIST 手 写 数字 样本 数据 集 由 上 万 张 28x28 像 素 、 已 标注 的 图 片 组 成 。 虽 然 该 数据 集 不 大 ， 但 是 其 包含 有 784 个 特征 可 供 最 近邻 
域 算法 训练 。 我 们 将 计算 这 类 分 类 问题 的 最 近邻 域 预测 ， 选 用 最 近 k 邻 域 (本 例 中 ，k=4) 模型 。 


5.6.2 ”动手 做 


1. 导 入 必要 的 编程 库 。 注 意 ， 导 入 PIL (Python Image Library) 模块 绘制 预测 输出 结果 。TensorFlow 中 有 内 建 的 滔 数 加 载 
MNIST 手 写 数 字样 本 数据 集 ， 代 码 如 下 : 


import random 

import numpy as np 

import tensorflow as tf 

import matplotlib.pyplot as plt 

from PIL import Image 

from tensorflow.examples.tutorials.mnist import input data 


2. 创 建 一 个 计算 图 会 话 ， 加 载 MNIST 手 写 数字 数据 集 ， 并 指定 one-hot 编 码 ， 代 码 如 下 : 


sess = tf.Session() 
mnist - input data.read data sets("MNIST data/"", one hot-True) 


一 one-hot 编 码 是 分 类 类 别 的 数值 化 ， 这 样 更 有 利于 后 续 的 数值 计算 。 本 例 包 含 10 个 类 别 (数字 0 到 9) ， 采 用 长 度 为 10 的 0-1 向 


Skim. ble, 3) “0” RHAAE: 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, HB) “1” RHAWE: 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 


3. 由 于 M NIST 手 写 数 字数 据 集 较 大 ， 直 接 计算 成 十 上 万 个 输入 的 784 个 特征 之 间 的 距离 是 比较 困难 的 ， 所 以 本 例会 抽样 成 小 数据 
集 进行 训练 。 对 测试 集 也 进行 抽样 处 理 ， 为 了 后 续 绘图 方便 ， 选 择 测试 集 数量 可 以 被 6 整除 。 我 们 将 绘制 最 后 批 次 的 6 张 图 片 来 查看 效 


果 ， 代 人 码 如 下 : 


train size = 1000 

test size - 102 

rand train indices - np.random.choice(len(mnist.train.images), 
train size, replace-False) 

rand test indices - np.random.choice(len(mnist.test.images), test 


Size, replace-False) 

x vals train - mnist.train.images[rand train indices] 
x vals test = mnist.test.images[rand test indices] 

y vals train - mnist.train.labels[rand train indices] 
y vals test - mnist.test.labels[rand test indices] 


4. 声 明 k 值 和 批量 大 小 : 


K = 4 
batch size=6 


5. 现 在 在 计算 图 中 开始 初始 化 占 位 符 ， 并 赋值 ， 代 码 如 下 : 


x data train = tf.placeholder (shape= [None, 784], dtype=tf.float32) 
x data test = tf.placeholder(shape-[None, 784], dtype-tf.float32) 
y target train - tf.placeholder(shape-[None, 10], dtype-tf. 
Float32) 

y target test = tf.placeholder(shape-[None, 10], dtype-tf.float32) 


6.PHSBHUBTSIETREREM. SAALI A 〈 即 绝对 值 ) FEAR, (ASR TE: 


distance = tf.reduce sum(tf.abs(tf.sub(x data train, tf.expand 
dims(x data test,1))), reduction indices=2) 


& C , 
-一 注意 ， 我 们 也 可 以 把 距离 函数 定义 为 L2 范 数 。 对 应 的 代码 为 : 


distance=tfisqrt (tfreduce sum (tf.square (ttsub (x_data_train, tf.expand_dims (x data test, 1) ) ) , reduction indices-1) ) o 
7. 找 到 最 接近 的 top k 图 片 和 预测 模型 。 在 数据 集 的 one-hot 编 码 索引 上 进行 预测 模型 计算 ， 然 后 统计 发 生 的 数量 ， 代 码 如 下 : 


top k xvals, top k indices = tf.nn.top k(tf.neg(distance), kzk) 
prediction indices - tf.gather(y target train, top k indices) 
count of predictions = tf.reduce sum(prediction indices, 
reduction indices-1) 

prediction - tf.argmax(count of predictions, dimension-1) 
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num loops = int(np.ceil(len(x vals test)/batch size)) 
test output - [] 
[ 


for i in range (num loops): 


actual vals 


min index - i*batch size 

max index = min((1i+1)*batch size,len(x vals train)) 

x batch - x vals test[min index:max index] 

y batch - y vals test[min index:max index] 

predictions = sess.run(prediction, feed dict={x data train: x 
vals train, x data test: x batch, 

y target train: y vals 

train, y target test: y batch]) 

test output.extend(predictions) 

actual vals.extend(np.argmax(y batch, axis=1) ) 


9. 现 在 已 经 保存 了 实际 值 和 预测 返回 值 ， 下 面 计算 模型 训练 准确 度 。 不 过 该 结果 会 因为 测试 数据 集 和 训练 数 据 集 的 随机 抽样 而 变 
化 ， 但 是 其 准确 度 约 为 80% ~ 90%， 代 码 如 下 : 


accuracy = sum([1./test size for i in range(test size) if test 
output [1] ==actual vals[ill) 

print ('Accuracy on test set: '' + str(accuracy) ) 

Accuracy on test set: 0.8333333333333325 


10. 绘 制 最 后 批 次 的 计算 结果 ( 见 图 5-4) ， 代 码 如 下 : 


actuals = np.argmax(y batch, axis=1) 

Nrows = 2 

Ncols = 3 

for i in range(len(actuals) ): 
plt.subplot (Nrows, Ncols, i+1) 


plt.imshow(np.reshape(x batch[i], [28,28]), cmap='Greys r'') 
plt.title('Actual: '' + str(actuals[i]) + '' Pred: '' + 
str(predictions[i]), fontsize=10) 


frame = plt.gca() 
frame.axes.get xaxis().set visible (False) 
frame.axes.get yaxis().set visible (False) 


Actual: / Pred: 7 Actual: 9 Pred: 7 Actual: 3 Pred: 5 


Actual: 4 Pred: 4 Actual: 5 Pred: 5 Actual: 4 Pred: 4 


图 5-4 最 近邻 域 算 法 预测 的 最 后 批 次 的 六 张 图 片 。 我 们 能 看 到 ， 并 不 是 每 张 图 片 都 获得 到 正确 的 结 


假设 有 足够 的 计算 时 间 和 计算 资源 ， 我 们 能 让 训练 数据 集 和 测试 数据 集 足 够 大 。 衣 方 法 可 以 增加 准确 度 ， 也 是 预防 过 拟 合 的 最 普 
通 的 方法 之 一 。 并 且 最 近邻 域 算法 说明 了 理想 的 k 值 需 进 一 步 选 择 ，k 值 的 选择 一 般 通 过 在 数据 集 上 进行 交叉 验证 获得 。 


我 们 也 能 使 用 最 近 人 $B 域 算法 评估 用 户 书 写 的 数字 ， 具 体 见 代码 仓库 


本 草 讨论 了 如 何 使 用 kNN 算 法 进行 回归 训练 和 分 类 。 也 列举 了 各 种 距离 浮 数 的 使 用 万 法 ， 以 及 如 何 混合 使 用 各 种 阔 数 。 我 们 鼓励 
读者 开 友 更 多 不 同 的 距离 度量 消 数 、 权 重 和 k 什 来 提高 算法 的 准确 度 。 


在 本 章 中 ， 我 们 将 介绍 神经 网 络 算法 及 其 在 TensorFlow 中 的 实现 。 后 续 大 部 分 章节 会 基于 神经 网 络 算法 ， 所 以 学 习 如 何在 
TensorFlow 中 实现 神经 网 络 算法 非常 重要 。 我 们 将 从 介绍 神经 网 络 的 基本 概念 讲 起 ， 之 后 介绍 多 层 神经 网 络 算法 ， 在 最 后 一 节 ， 将 创 
建 一 个 神经 网 络 来 学 习 并 字模 。 


通过 本 章 的 学 习 ， 你 将 掌握 以 下 知识 点 : 
` 实现 门 函 数 

` 使 用 门 函 数 和 激励 函数 
.TensotFlow 实 现 单 层 神经 网 络 

- TensorFlow 实 现 神 经 网 络 常见 层 

` 使 用 多 层 神 经 网 络 

+ 线性 预测 模型 的 优化 
.TensofFlow 基 于 神经 网 络 实现 井 字 棋 


读者 可 以 在 代码 仓库 (https://github.com/nfmcclure/tensorflow_ cookbook) 获取 本 章 的 所 有 代码 。 


6.1 神经 网 络 算 法 基础 


独 经 网 络 算法 在 识别 图 像 和 语音 、 识 别 手写 、 理 解 文本 、 图 像 分 割 、 对 话 系统 、 目 动 当 驶 等 领域 不 断 打 破 纪 录 。 上 述 这 些 应 用 将 
在 后 续 章节 中 讲解 ， 神 经 网 络 算法 是 一 种 简单 易 实 现 的、 很 重要 的 机 器 学 习 算法 。 


昼 经 网 络 算法 的 概念 已 出 现 几 十 年 ， 但 是 它 仅仅 在 最 近 由 于 计算 能 力 (计算 处 理 、 算 法 效率 和 数据 集 大 小 ) 的 提升 能 训练 大 规模 
网 络 才 获 得 新 的 友 展 。 


独 经 网 络 算法 是 对 输入 数据 起 阵 进 行 一 系列 的 基本 操作 。 这 些 操作 通 冲 包 括 非 线 性 阔 数 的 加 法 和 乘法 ， 人 在 3.9 节 中 有 所 使 用 。 逻 辑 
回归 算法 是 斜率 与 特征 点 积 求 和 后 进行 非 线性 sigmoid 函 数 计算 。 神 经 网 络 算法 表达 形式 更 通用 ， 多 许 任意 形式 的 基本 操作 和 非 线性 
函数 的 结合 ， 包 括 绝对 值 、 最 大 值 、 最 小 值 等 . 


独 经 网 络 算法 的 一 个 重要 的 “ 黑 科 技 ” 是 “上 反 辐 传播 ”。 反 向 传播 是 一 种 基于 学 习 率 和 损失 逆 数 返回 值 来 更 新 模型 变量 的 过 程 。 
我 们 在 第 3 章 和 第 4 章 中 使 用 反 向 传播 方法 来 更 新 模型 变量 。 


神经 网 络 算法 另外 一 个 重要 的 特性 是 非 线 性 激励 阔 数 。 因 为 大 部 分 神经 网 络 算法 仪 仅 是 加 法 操作 和 乘法 操作 的 结合 ， 所 以 它们 不 
能 进行 非 线 性 数据 样本 集 的 模型 训练 。 为 了 解决 该 问题 ， 我 们 在 神经 网 络 算法 中 使 用 非 线性 激励 函数 ， 这 将 使 得 神经 网 络 算法 能 够 解 
决 大 部 分 非 线性 的 问题 。 


记 住 ， 如 前 面 见 过 的 大 部 分 算法 ， 神 经 网 络 算法 对 所 选择 的 超 参 数 是 敏感 的 。 在 本 章 中， 我们 将 看 到 不 同 的 学 习 率 、 损 失 函 数 和 
优化 对 模型 训练 的 影响 。 


这 里 有 一 些 神经 网 络 算法 的 深入 学 习 资料 。 
关于 反 向 传播 的 文章 “Efficient BackProp , Yann LeCun 等 著 ，PDF 版 地 址 : http://yann.lecun.comy/exdb/publis/pdf/lecun-98b.pdf。 


斯 坦 福 大 学 课程 CS231， «Convolutional Neural Networks for Visual Recognition? ， 课 件 地 址 : http:/ /cs231n.stanford.edu/ 。 


斯 坦 福 大 学 课程 CS224d，《Deep Learning for Natural Language Processing? ， 课 件 地 址 : http:/ /cs224d.stanford.edu/ o 
MIT 出 版 的 《Deep Learning》，Goodfellow 等 著 ， 地 址 : http://www.deeplearningbook.org. 
在 线 书籍 《Neural Networks and Deep Learning? , Michael Nielsen, 地址: http://neuralnetworksanddeeplearning.com/ o 


Andrej Karpathy 用 程序 的 方式 介绍 神经 网 络 算法 ， 其 JavaScript 例 子 称 为 “A Hacker's Guide to Neural Networks” , 地 


Ab: http://karpathy.github.io/neuralnets/ o 


Ian Goodfellow, Yoshua Bengio 和 Aaton Coutville 总 结 的 深度 学 习 笔 记 《Deep Learning for Beginners» ， 地 


Ab: http://randomekek. github.io/deep/deeplearning. html. 


6.2 ”用 TensorFlow 实 现 门 函数 


仲 经 网 络 算法 的 基本 概念 之 一 是 门 操作 。 本 节 以 乘法 操作 作为 门 操作 开始 ， 接 着 介绍 岩 套 的 门 操作 。 


6.2.1 开始 
第 一 个 实现 的 操作 门 是 f (x) =a:x。 为 了 优化 该 门 操作 ， 我 们 声明 a 输入 作为 变量 ，x 输 入 作为 占 位 待 。 这 意味 着 TensorFlow 将 改 
变 a 的 值 ， 而 不 是 x 的 值 。 我 们 将 创建 损失 函数 ， 度 量 输 出 结果 和 目标 值 之 间 的 差 值 ， 这 里 的 目标 值 是 50。 


第 二 个 实现 的 凯 套 操作 门 是 f (x) =a:x+b。 我 们 声明 a 和 b 为 变量 ，x 为 占 位 符 。 同 目标 值 50 优 化 输出 结果 。 有 趣 的 是 第 二 个 例子 
的 解决 方法 不 是 唯一 的 。 许 多 模型 变量 的 组 合 使 得 输出 结果 为 50。 在 神经 网 络 算法 中 ， 我 们 不 太 关 心 模型 变量 的 中 间 值 ， 而 把 关注 点 
放 在 预期 的 输出 结果 上 。 


想象 一 下 ， 计 算 图 中 的 操作 门 ， 图 6-1 是 上 述 两 个 例子 的 门 操作 的 描述 。 


图 6-1 两 个 操作 门 


6.2.2 ”动手 做 


为 了 在 TensorFlow 中 实现 第 一 个 门 操作 f (x) =a:-x， 并 训 | 练 输出 结果 50， 具 体 的 步骤 如 下 。 
1. 加 载 TensorFlow 模 块 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 : 


lmport tensorflow as tf 
sess = tf.Session() 


2. 声 明 模 型 变量 、 输 入 数据 集 和 上 位 符 。 本 例 输入 数据 为 5， 所 以 乘法 因子 为 10， 可 以 得 到 50 的 预期 值 (5x10=50) ,代码 如 
F: 


a = tf.Variable(tf.constant(4.)) 
x val = 5. 
x data = tf.placeholder (dtype=tf.float32) 


3. 增 加 操作 到 计算 图 中 ， 代 码 如 下 : 


multiplication = tf.mul(a, x data) 
4. 声 明 损失 逆 数 : 输出 结果 与 预期 目标 值 (50) 之 间 的 L2 距 离 国 数 ， 代 码 如 下 : 


loss = tf.square(tf.sub(multiplication, 50.)) 


5. 初 始 化 模型 变量 ， 声 明 标 准 梯度 下 降 优 化 算法 ， 代 码 如 下 : 


init = tf.initialize all variables () 
sess.run(init) 

my opt = tf.train.GradientDescentOptimizer(0.01) 
train step = my opt.minimize(loss) 


6. 优 化 模型 输出 结果 。 连 续 输 入 值 ?， 反 向 传播 损失 阔 数 来 更 新 模型 变量 以 达到 值 10， 代 码 如 下 : 


print('Optimizing a Multiplication Gate Output to 50.') 
for i in range(10): 
sess.run(train step, feed dict-(x data: x val]) 


a val - sess.run(a) 
mult output = sess.run(multiplication, feed dict={x data: x 
val!) 
print(str(a val) + ' * ' + str(x val) + ' = ' + str(mult output)) 
7. 输 出 结果 如 下 : 


Optimizing a Multiplication Gate Output to 50. 
7.90 * 5.0 = 35.0 

8.5 * 5.0 = 42.5 

9.25 * 5.0 = 46.25 
9.6025 * 5.0 = 198.125 
9.8125 * 5.0 = 49.0625 
9.90625 
9 
9 
9 
9 


* 5.0 = 49,5312 
.95312 * 5.0 = 49.7656 
.97656 * 5.0 = 49.8828 
.98828 * 5.0 = 49.9414 
.99414 * 5.0 = 49.9707 


SJ PS TERE ER FAF (x) =ax+b， 也 执行 上 述 相同 的 步骤 。 


9. 开 始 第 二 个 例子 ,不 同 在 于 本 例 中 包含 两 个 模型 变量 : a 和 b， 代 码 如 下 : 


from tensorflow.python.framework import ops 
Ops.reset default graph() 
sess - tf.Session() 


tf.Variable(tf.constant (1.) ) 
tf.Variable(tf.constant (1.) ) 

| val = 5. 

data = tf.placeholder(dtype-tf.float32) 


A mm O 
I 


two gate = tf.add(tf.mul(a, x data), b) 
loss = tf.square(tf.sub(two gate, 50.)) 


my opt - tf.train.GradientDescentOptimizer(0.01) 
train step - my opt.minimize(loss) 


init = tf.initialize all variables() 
sess.run(init) 


10. 优 化 模型 变量 ， 训 练 输出 结果 ， 以 达到 预期 目标 值 20， 代 码 如 下 : 


print ('\nOptimizing Two Gate Output to 50.') 
for i in range(10): 

# Run the train step 

sess.run(train step, feed dict={x data: x val]) 

# Get the a and b values 

a val, b val = (sess.run(a), sess.run(b)) 

# Run the two-gate graph output 

two gate output = sess.run(two gate, feed dict={x data: x 
val}) 

print(str(a val) + ' * ' + str(x val) + ' + ' + str(b val) + ' 
= ' + str(two gate output) ) E " 


11. 输 出 结果 如 下 : 


Optimizing Two Gate Output to 50. 


5.4 * 5.0 + 1.88 = 28.88 

7.512 * 5.0 + 2.3024 = 39.8624 
8.52576 * 5.0 + 2.50515 = 45.134 
9.01236 * 5.0 + 2.60247 = 47.6643 
9.24593 * 5.0 + 2.64919 = 48.8789 
9.35805 * 5.0 + 2.67161 = 49.4619 
9.41186 * 5.0 + 2.68237 = 49.7417 
9.43769 * 5.0 + 2.68754 = 49.876 
9.45009 * 5.0 + 2.69002 = 49.9405 
9.45605 * 5.0 + 2.69121 = 49.9714 


. 
3 v 


% 这 里 需要 注意 的 是 ， x 二 个 例子 的 解决 方法 不 是 唯一 的 。 这 在 神经 网 络 算法 中 不 KEE, 因 为 所 有 的 参数 是 根据 减 小 损 A 
数 来 调整 的 。 最 终 的 解决 方案 依赖 于 a 和 Pb 的 初始 值 。 如 果 它 们 是 随机 初始 化 的 ， 而 不 是 1， 我 们 将 会 看 到 每 次 迭代 的 模型 变量 的 输出 结 


果 并 不 相同 。 


6.2.3 ”工作 原理 


通过 TensorFlow 的 隐 式 后 向 传播 达到 计算 门 操作 的 优化 。TensorFlow 维 护 模 型 操作 和 变量 ， 调 整 优 化 算法 和 损失 函数 。 


我 们 能 扩展 操作 门 ， 选 定 哪 一 个 输入 是 变量 ， 哪 一 个 输入 是 数据 。 因 为 TensorFlow 将 调整 所 有 的 模型 变量 来 最 小 化 损失 函数 ， 而 
不 是 调整 数据 ， 数 据 输入 声明 为 占 位 符 。 


维护 计算 图 中 的 状态 ， 以 及 每 次 训 | 练 迭代 上 自动 更 新 模型 变量 的 隐 式 能 力 是 TensorFlow 具 有 的 优势 特征 之 一 ， 该 能 力 让 
TensorFlow 威 力 无 穷 。 


6.3 (FA) Jeet RUBIN 
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6.3.1 开始 


本 节 将 比较 两 种 不 同 的 激励 函数 : sigmoid 激 励 函 数 和 ReLU 激 励 函 数 。 简 单 回忆 一 下 这 两 个 激励 函数 的 表达 式 : 


l 
l+e 
Re LU (x) = max (0, x) 


在 本 例 中 ， 我 们 将 创建 两 个 相同 结构 的 单 层 神经 网 络 ， 有 一 点 不 同 的 是 : 一 个 通过 sigmoid 激 励 函 数 赋值 ; 另外 一 个 则 通过 ReLU 
激励 浮 数 赋值 。 损 失 遂 数 使 用 L2 范 数 距离 函数 (输出 结果 与 0.75 的 差 值 ) 。 我 们 将 从 正 态 分 布 数 据 集 
(Normal (mean=2，sd=0.1) ) 中 随机 抽取 批量 数据 ， 优 化 输出 结果 达到 预期 值 0.75。 


sigmoid (x) = 


6.3.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 初 始 化 一 个 计算 图 会 话 。 对 于 学 习 在 TensorFlow 中 如 何 设置 随机 种 子 而 言 ， 这 也 是 一 个 很 好 的 例子 。 这 里 
将 使 用 TensorFlow 和 Numpy 模 块 的 随机 数 生 成 器 。 对 于 相同 的 随机 种 子 集 ， 我 们 应 该 能 够 复 现 ， 代 码 如 下 : 


import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 
sess - tf.Session() 

tf.set random seed(5) 
np.random.seed(42) 


2. 声 明 批量 大 小 、 模 型 变量 、 数 据 集 和 占 位 符 。 在 计算 图 中 为 两 个 相似 的 神经 网 络 模型 (ARAN) 传 入 正 态 分 布 数据 ， 
代码 如 下 : 


batch size = 50 

al = tf.Variable (tf ,1] 
bl = tf.Variable(tf.random uniform(shape=[1,1 
a2 = tf.Variable(tf.random normal (shape=[1,1] 
b2 = tf.Variable(tf.random uniform(shape=[1,1 
x = np.random.normal(2, 0.1, 500) 


x data = tf.placeholder(shape-[None, 1], dtype-tf.float32) 


3. 声 明 两 个 训练 模型 ， 即 sigmoid 激 励 模型 和 ReLU 激 励 模型 ， 代 码 如 下 : 


sigmoid activation = tf.sigmoid(tf.add(tf.matmul (x data, al), b1)) 
relu activation = tf.nn.relu(tf.add(tf.matmul (x data, a2), b2)) 


4. 损 失 函 数 都 采用 模型 输出 和 预期 值 0.75 之 间 的 差 值 的 L2 范 数 平均 ， 代 码 如 下 : 


loss1 = tf.reduce mean(tf.square(tf.sub(sigmoid activation, 
0. 75) T) 
loss2 = tf.reduce mean(tf.square(tf.sub(relu activation, 0.75))) 


5. 声 明 优 化 算法 ， 初 始 化 变量 ， 代 码 如 下 : 


my opt = tf.train.GradientDescentOptimizer (0.01) 
train step sigmoid = my opt.minimize(loss1) 
train step relu = my opt.minimize(loss2) 

init = tf.initialize all variables () 
sess.run(init) 


6. 遍 历 达 代 训练 模型 ， 每 个 模型 迭代 750 次 。 保 存 损 失 函 数 输出 和 澈 励 函数 的 返回 值 ， 以 便 后 续 绘 图 ， 代 码 如 下 : 


loss vec sigmoid = [] 
loss vec relu = | 
activation sigmoid = [|] 
activation relu - [] 
for i in range(750): 

rand indices = np.random.choice(len(x), size=batch size) 
x vals = np.transpose([x[rand_indices] ] ) 
sess.run(train step sigmoid, feed dict={x data: x vals}) 
sess.run(train step relu, feed dict={x data: x vals}) 


loss vec sigmoid.append(sess.run(loss1, feed dict={x data: x 
vals])) 


loss vec relu.append(sess.run(loss2, feed dict={x data: x 
vals})) 


activation sigmoid.append(np.mean(sess.run(sigmoid activation, 
feed dict={x data: x vals}))) 

activation relu.append(np.mean(sess.run(relu_activation, feed_ 
dict={x data: x vals}))) 


7. Paes min AeA, PrÉAESRAIEIO-2: 


plt.plot (activation sigmoid, 'k-', label='Sigmoid Activation!) 
plt.plot (activation relu, 'r--', label='Relu Activation' ) 
plt.ylim([0, 1.0]) 

plt.title('Activation Outputs') 

plt.xlabel ('Generation' ) 

plt.ylabel ('Outputs') 

plt.legend(loc='upper right') 

plt.show () 

plt.plot(loss vec sigmoid, 'k-', label='Sigmoid Loss') 
plt.plot(loss vec relu, 'r--', label='Relu Loss') 
plt.ylim([0, 1.0]) 

plt.title('Loss per Generation!) 

plt.xlabel ('Generation' ) 

plt.ylabel('Loss') 

plt.legend(loc='upper right') 

plt.show() 


ANRA ARERR AHURA., RARE) (分 别 是 sigmoid 和 ReLU 激 励 函数 ) 。 从 图 6-3 中 可 以 看 
出 ， 带 有 ReLU 激 励 函 数 的 神经 网 络 比 sigmoid 激 励 函 数 的 神经 网 络 向 0.75 收 敛 得 更 快 。 


10 Acbvation Outputs 


— Sigmoid Activation 
-- Relu Activation 
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图 6-2” 带 有 siemoid 和 ReLU 激 励 函 数 的 神经 网 络 输出 结果 对 比 


10 Loss per Generation 


-一 Sigmoid Loss 
- - Relu Loss 
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图 6-3” 带 有 sigmoid 和 ReLU 激 励 函 数 的 神经 网 络 的 损失 函数 值 对 比 。 注 意 ReLU 损 失 在 迭代 初期 急剧 下 降 


6.3.3 ”工作 原理 


基于 ReLU 激 励 溺 数 的 形式 ， 它 将 比 sigmoid 激 励 肖 数 返回 更 多 的 0 值 。 我 们 认为 设 行 为 是 一 种 稀 足 性 的 ， 黎 疏 性 导致 收敛 速度 加 
快 ,但 是 损失 了 一 部 分 梯度 控制 的 能 力 。 相 反 ，sigmoid 激 励 辫 数 具 有 有 展 好 的 梯度 控制 ， 不 会 出 现 ReLU 激 励 溺 数 那 样 的 极 值 。 
sigmoid 激 励 溺 数 和 ReLU 激 励 立 数 的 对 比如 下 表 所 示 。 


激励 函数 缺点 
Sigmoid 激励 函数 输出 的 极 值 很 少 BOK 
ReLU 激励 函数 快速 收 全 返回 结果 中 容易 出 现 极 值 


6.3.4 ”延伸 学 习 


在 本 节 中 ， 我 们 比较 了 神经 网 络 算法 的 ReLU 激 励 函数 和 sigmoid 激 励 尔 数 。 神 经 网 络 算法 常用 的 其 他 激励 函数 还 有 很 多 ， 但 是 整 
体 可 以 归纳 成 两 类 : 第 一 类 是 形状 类 似 sigmoid 的 激 励 销 数 ， 包 括 反 正切 激励 浮 数 、 双 曲 正 切 浮 数 、 阶 路 激励 函数 等 ， 第 二 类 是 形状 
类 似 ReLU 的 激励 立 数 ， 包 括 softplus 激 励 溺 数 、leak ReLU 激 励 冰 数 等 。 本 书 讨 论 的 两 类 激励 阔 数 的 大 部 分 比较 结果 也 适用 于 所 在 的 

分 类 激励 沙 数 。 然 而 ， 注 意 激励 遂 数 的 选择 对 于 神经 网 络 算法 的 收 钱 是 非常 天 键 的 。 


64 用 TensorFlow 实 现 单 层 神经 网 络 


我 们 已 经 实现 了 神经 网 络 算法 应 用 到 真实 数据 集 上 的 大 部 分 操作 ， 本 蔬 将 实现 一 个 单 层 昼 经 网 络 〈 层 即 为 神经 网 络 中 的 神经 
元 ) ， 并 在 Iris 数据 集 上 进行 模型 训练 。 


64.1 开始 


在 本 节 中 ， 我 们 将 实现 一 个 单 隐藏 层 的 神经 网 络 算法 。 理 解 全 联接 昼 经 网 络 算法 主要 是 基于 算 阵 乘法 的 ， 这 一 点 是 相当 重要 的 。 
并 且 ， 数 据 集 和 算 阵 的 维度 对 于 算法 模型 正确 有 序 地 运行 是 非常 关键 的 。 


由 于 本 例 是 一 个 回归 算法 问题 ， 所 以 将 使 用 均 方 误 关 作为 损失 函数 。 


6.4.2 动手 做 
1. 创 建 计算 图 会 话 ， 导 入 必要 的 编程 库 ， 代 码 如 下 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from sklearn import datasets 


2. 加 载 lris 数 据 集 ， 人 存储 化 车 长 度 作 为 目标 值 ， 然 后 开始 一 个 计算 图 会 语 ， 代 码 如 下 : 


iris = datasets.load iris() 

x vals = np.array([x[0:3] for x in iris.datal) 
y vals = np.array([x[3] for x in iris.datal) 
sess = tf.Session() 


3. 因 为 数据 集 比较 小 ， 我 们 设置 一 个 种 子 使 得 返回 结果 可 复 现 ， 代 码 如 下 : 


seed = 2 
tf.set random seed (seed) 
np.random. seed (seed) 


4. 为 了 准备 数据 集 ， 我 们 创建 一 个 80-20 分 的 训练 集 和 测试 集 。 通 过 min-max 缩 放 法 正则 化 x 特 征 值 为 0 到 1 之 间 ， 代 码 如 下 : 


train indices = np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 
test indices = np.array(list(set(range(len(x vals))) - set(train 
indices))) 
x vals train - x vals[train indices] 
x vals test - x vals[test indices] 
y vals train - y vals[train indices] 
y vals test - y vals[test indices] 
def normalize cols (m): 
col max = m.max(axis=0) 
col min = m.min(axis=0) 
return (m-col min) / (col max - col min) 


x vals train = np.nan to num(normalize cols(x vals train)) 
x vals test = np.nan to num(normalize cols(x vals test)) 


5. 现 在 为 数据 集 和 目标 值 声明 批量 大 小 和 占 位 得 ， 代 码 如 下 : 


batch size = 50 
x data - tf.placeholder(shape-[None, 3], dtype-tf.float32) 
y target = tf£.placeholder(shape=[None, 1], dtype-tf.float32) 


6. 这 一 步 相当 重要 ， 声 明 有 合适 形状 的 模型 变量 。 我 们 能 声明 隐藏 层 为 任意 大 小 ， 本 例 中 设置 为 有 五 个 隐藏 节点 ， 代 码 如 下 : 


hidden layer nodes = 5 

Al tf.Variable(tf.random normal (shape=[3,hidden layer nodes] ) ) 
b1 = tf.Variable(tf 

A2 = tf.Variable(tf.random normal (shape=[hidden layer nodes,1])) 
b2 - tf.Variable(tf 


.random normal(í(shape-[hidden layer nodes])) 
( 
( 


.random normal (shape= [1] ) ) 


7. 分 两 步 声 明 训 | 练 模型 : 第 一 步 ， 创 建 一 个 隐藏 层 输出 ;第 二 步 ， 创 建 训练 模型 的 最 后 输出 ， 代 码 如 下 : 


«€ 
Ko Sos es xk - 2 i 和 
注意 ， 本 例 中 的 模型 有 三 个 特征 、 五 个 隐藏 节点 和 一 个 输出 结果 值 。 


hidden output = tf.nn.relu(tf.add(tf.matmul(x data, A1), b1)) 
final output - tf.nn.relu(tf.add(tf.matmul(hidden output, A2), 


b2)) 
8. 这 里 定义 均 方 误差 作为 损失 函数 ， 代 码 如 下 : 


loss = tf.reduce mean(tf.square(y target - final output)) 


9 声明 优化 算法 ， 初 始 化 模型 变量 ， 代 码 如 下 : 


my opt = tf.train.GradientDescentOptimizer(0.005) 
train step - my opt.minimize(loss) 

init - tf.initialize all variables() 
sess.run(init) 


10.38 AIA IRE, RIC (list) ARAVA. ERRAR, BBD zee ey ARSE 
拟 合 模型 ， 代 码 如 下 : 


# First we initialize the loss vectors for storage. 
loss vec - [] 
test loss - [] 
for i in range(500): 
# First we select a random set of indices for the batch. 
rand index - np.random.choice(len(x vals train), size-batch 
size) 
# We then select the training values 
rand x - x vals train[rand index] 
rand y - np.transpose([y vals train[rand indexl]) 
# Now we run the training step 
sess.run(train step, feed dict={x data: rand x, y target: 
rand yj) 
# We save the training loss 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y}) 


loss vec.append(np.sqrt (temp loss) ) 


# Finally, we run the test-set loss and save it. 


test temp loss = sess.run(loss, feed dict={x data: x vals 
test, y target: np.transpose([y vals test])]) 


test loss.append(np.sqrt(test temp loss)) 
if (1+1)%50==0: 
print('Generation: ' + str(i+1) + '. Loss = ' + str(temp 
loss)) 


11. 使 用 matplotlib 绘 制 损 失 函 数 的 代码 如 下 ， 所 绘图 像 如 图 6-4 所 示 : 


plt .plot (loss vec, 'k-', label-'Train Loss!) 
plt.plot(test loss, 'r--', label='Test Loss') 
plt.title('Loss (MSE) per Generation' ) 
plt.xlabel ('Generation' ) 

plt.ylabel ('Loss') 

plt.legend(loc='upper right') 

plt.show() 


643 ”工作 原理 


可 视 化 神经 网 络 算法 模型 ， 如 图 6-5 所 示 。 


6.4.4 延伸 学 习 


注意 ， 我 们 通过 可 视 化 测试 集 和 训练 集 的 损失 消 数 可 以 判定 训练 数据 集 上 的 模型 训练 是 否 过 拟 合 ， 也 可 以 友 现 测试 集 的 损失 消 数 
比 训练 集 更 平滑 ， 主 要 有 两 个 原因 : 第 一 个 是 ， 训 练 集 的 数据 批量 大 小 比 测试 集 小 (虽然 小 得 不 太 多 ) ; 第 二 个 是 ， 模 型 训练 是 在 训 
练 集 上 进行 的 ， 所 以 测试 集 对 模型 变量 没有 影响 。 


Loss (MSE) per Generation 


Train Loss 
Test Loss 
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Generation 
图 6-4 训练 集 和 测试 集 的 损失 函数 (MSE) 绘图 。 注 意 ， 在 200 次 迭代 训练 后 会 出 现 轻微 的 过 拟 合 ， 因 为 测试 集 MSE 没 有 丢失 特征 ， 


但 是 训练 集 MSE 会 别 除 特征 


5 weights + 1bias = 26 variables 


Output 


Placeholders 


图 6-5 ”和 神经 网 络 算法 模型 可 视 化 ， 其 中 隐藏 层 包 含 五 个 隐藏 节点 。 我 们 传 入 三 个 值 : WAKE (SL) 、 花 葛 宽 度 (SW) PERKE 


(P.L) 。 目 标 值 是 花 办 宽度 。 总 共 将 有 26 个 模型 变量 


6.5 用 TensorFlow 实 现 伸 经 网 络 音 见 层 


ATRIA Se, Bat (convolutional layer) 和 池 化 层 (maxpool layer) 。 在 上 一 节 ， 我 们 实现 了 全 联接 
层 ， 本 小 节 将 扩展 到 其 他 层 。 


6.5.1 开始 


我 们 已 经 研究 了 如 何 连 接 数 据 输 入 和 全 联接 的 隐藏 层 。TensorFlow 中 有 许多 内 建 函 数 的 多 种 类 型 的 层 ， 其 中 最 流行 的 层 是 卷 积 层 
和 池 化 层 。 我 们 将 展示 如 何在 输入 数据 和 全 联接 的 数据 上 创建 和 使 用 这 些 层 。 首 先 ， 我 们 来 介绍 如 何在 一 维 数据 上 使 用 这 些 层 ， 然 后 
是 在 二 维 数据 上 使 用 它们 。 


昼 经 网 络 算法 的 层 能 以 任意 形式 组 合 ， 最 单 用 的 使 用 方法 是 用 卷 积 层 和 全 联接 层 来 创建 特征 。 如 果 我 们 有 许多 特征 ， 弟 用 的 处 理 
方法 是 采用 池 化 层 。 在 这 些 层 之 后 常常 引入 激励 函数 。 卷 积 神经 网 络 (CNN) 算法 ( 见 第 8 章 ) ， 经 常会 包括 卷 积 层 、 池 化 层 、 激 励 


6.5.2 动手 做 


刚 开 始 ， 先 以 一 维 数据 为 例 。 我 们 将 生成 一 维 随机 数据 。 


1. 导 入 需要 的 编程 库 ， 创 建 计算 图 会 话 ， 代 码 如 下 : 


import tensorflow as tf 
import numpy as np 
sess - tf.Session() 


2A] A ERIS, AXMn7JNumPysNAB, KEA2S. EEAO, POBRE: 


data size = 25 
data 1d = np.random.normal(size-data size) 
x input ld = tf.placeholder(dtypestf.float32, shapes[data size]) 


3. 定 义 一 个 卷 积 层 的 图 数 。 接 看 声明 一 个 随机 过 滤 层 ， 创 建 一 个 卷 积 层 ， 代 码 如 下 : 


次 一 注意 ， 许 多 TensorFlow 的 层 函 数 是 为 四 维 数据 设计 的 〈4D=[batch size, width, height, channels]) 。 我 们 需要 调整 输入 数据 和 
输出 数据 ， 包 括 扩 展 维度 和 降 维 。 在 本 例 中 ， 批 量 大 小 为 1， 宽 度 为 1， 高 度 为 25， 闫 色 通 道 为 1。 为 了 扩展 维度 ， 使 用 
expand dims () 4k; 降 维 使 用 squeeze () Hak. BARRA B SERA AXJoutput size- (W-F+2P) /S+1， 其 中 W 为 输入 数据 
维度 ，F 为 过 滤 层 大 小 ，P 是 padding 大 小 ，S 是 步 长 大 小 。 


def conv layer 1d(input 1d, my filter): 

# Make 1d input into 4d 

input 2d = tf.expand dims(input 1d, 0) 

input 3d = tf.expand dims(input 2d, 0) 

input 4d - tf.expand dims(input 3d, 3) 

# Perform convolution 

convolution output = tf.nn.conv2d(input 4d, filter=my filter, 
strides=[1,1,1,1], padding="VALID") 

# Now drop extra dimensions 

conv output ld = tf.squeeze (convolution output) 

return (conv output 1d) 


my filter = tf.Variable(tf.random normal (shape=[1,5,1,1])) 
my convolution output = conv layer 1d(x input 1d, my filter) 


4.TensorFlowBS; AiR A VORA. Xena, Gere PEAR. ^ NIBUS — ^ BABIES AO T SUR. 


def activation(input 1d): 
return (tf.nn.relu(input 14d) ) 
my activation output = activation(my convolution output) 
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的 窗口 宽度 为 5， 并 且 具 有 valid padding (Bp 4E Xpadding) ， 所 以 输出 数组 将 有 4 或 者 2 floor (5/2) 项 。 


def max pool (input 1d, width): 
4 First we make the 1d input into 4d. 
input 2d = tf.expand dims(input 1d, 0) 
input 3d = tf.expand dims(input 2d, 0) 
input 4d - tf.expand dims(input 3d, 3) 
# Perform the max pool operation 


pool output - tf.nn.max pool(input 4d, ksize-[1, 1, width, 1], 
strides-[1, 1, 1, 1], padding='VALID') 

pool output ld = tf.squeeze(pool output) 

return (pool output 1d) 


my maxpool output = max pool (my activation output, width=5) 


6. 最 后 一 层 连 接 的 是 全 联接 层 。 创 建 一 个 国 数 ， 该 国 数 输入 一 维 数据 ， 输 出 值 的 么 3 引 。 记 住 一 维 数组 做 矩阵 乘法 需要 提前 扩展 为 


def fully connected(input layer, num outputs): 
# Create weights 


weight shape - tf.squeeze(tf.pack([tf.shape(input layer), 
[num outputs]])) 


weight = tf.random normal (weight shape, stddev=0.1) 

bias = tf.random normal (Shape= [num outputs]) 

# Make input into 2d 

input layer 2d = tf.expand dims(input layer, 0) 

# Perform fully connected operations 

full output = tf.add(tfi.matmul (input layer 2d, weight), bias) 
# Drop extra dimensions 

full output 1d = tf.squeeze(full output) 
return (full output 1d) 


my full output - fully connected(my maxpool output, 5) 


7. 初 始 化 所 有 的 变量 ， 运 行 计算 图 打印 出 每 层 的 输出 结果 ， 代 码 如 下 : 


init = tf.initialize all variables (| 
sess.run(init) 

feed dict - (x input 1d: data 1dj 

# Convolution Output 

print ('Input = array of length 25'') 


print ('Convolution w/filter, length = 5, stride size = 1, results 
in an array of length 21:'') 


print (sess.run(my convolution output, feed dict=feed dict) ) 
# Activation Output 

print ('\nInput = the above array of length 21'') 

print ('ReLU element wise returns the array of length 21:'') 
print (sess.run(my_ activation output, feed dict=feed dict) ) 
# Maxpool Output 

print ('\nInput = the above array of length 21'') 


print ('MaxPool, window length = 5, stride size = 1, results in the 
array of length 17:'') 


print (sess.run(my maxpool output, feed dict=feed dict) ) 
# Fully Connected Output 
print('\nInput = the above array of length 17'') 


print ('Fully connected layer on all four rows with five 
outputs: '*) 
print (sess.run(my full output, feed dict=feed dict) ) 


8. 输 出 结果 如 下 : 


NS 


Input - array of length 25 


Convolution w/filter, length - 5, stride size - 1, results in an 
array of length 21: 


[-0.91608119 1.53731811 -0.7954089 0.5041104 1.88933098 
-1.81099761 0.56695032 1.17945457 -0.66252393 -1.90287709 
0.87184119 0.84611893 -5.25024986 -0.05473572 2.19293165 
-4.47577858 -1.71364677 3.96857905 -2.0452652 -1.86647367 
-0.12697852] 

Input - the above array of length 21 

ReLU element wise returns the array of length 21: 


| Üx Le5373L811 B. 0.5041104 1.88933098 
0. o. 1.17945457 OQ. Qs 
0.87184119 0.84611893 0. 0. 2.19293165 
0. 0. 3.96857905 0. 0 
0 . ] 

Input = the above array of length 21 

MaxPool, window length - 5, stride size - 1, results in the array 

of length 17: 

[ 1.88933098 1.88933098 1.88933098 1.88933098 1.88933098 
1.17945457 1.17945457 1.17945457 O.87184119 0.87184119 
2.19293165 2.19293165 2.19293165 3.96857905 3.96857905 


3.96857905 3.96857905] 
Input = the above array of length 17 
Fully connected layer on all four rows with five outputs: 
[ 1.23588216 -0.42116445 1.44521213 1.40348077 -0.79607368] 


; 
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各 算法 。 
下 面 开 始 在 二 维 数据 集 上 进行 层 国 数 操作 : 


1 重 置 计算 图 会 话 ， 代 码 如 下 : 
ops.reset default graph() 
sess = tf.Session() 


2. 初 始 化 输入 数组 为 10x 10 的 矩阵 ， 然 后 初始 化 计算 图 的 占 位 得 ， 代 码 如 下 : 


data size = [10,10] 
data 2d = np.random.normal (size=data size) 
x input 2d = tf.placeholder(dtype-tf.float32, shape-data size) 


3. 声 明 一 个 卷 积 层 消 数 。 因 为 数据 集 已 经 具有 高 度 和 宽度 了 ， 这 里 仅 需 骨 扩 展 两 维 (批量 大 小 为 1， 颜 色 通 道 为 1) 即 可 使 用 卷 积 


conv2d () 函数 。 本 例 将 使 用 一 个 随机 的 2x2 过 滤 层 ， 两 个 方向 上 的 步 长 和 valid padding ( 非 零 padding) 。 由 于 输入 数据 是 
10x10， 因 此 卷 积 输出 为 ?x5。 具 体 代 码 如 下 : 


def conv layer 2d(input 2d, my filter): 

# First, change 2d input to 4d 

input 3d = tf.expand dims(input 2d, 0) 

input 4d = tf.expand dims(input 3d, 3) 

# Perform convolution 

convolution output = tf.nn.conv2d(input 4d, filter=my filter, 
strides=[1,2,2,1], padding="VALID") 

# Drop extra dimensions 

conv output 2d = tf.squeeze (convolution output) 

return (conv output 2d) 


my filter = tf.Variable(tf.random normal (shape=[2,2,1,1])) 
my convolution output = conv layer 2d(x input 2d, my filter) 


4 激励 函数 是 针对 逐个 元 素 的 ， 现 创建 激励 函数 并 初始 化 ， 代 码 如 下 : 


def activation(input 2d): 
return(tf.nn.relu(input 2d) ) 
my activation output = activation(my convolution output) 


5. 本 例 的 池 化 层 与 一 维 数据 例子 中 的 相似 ， 有 一 点 不 同 的 是 ,我 们 需要 声明 池 化 层 移动 窗口 的 宽度 和 高 度 。 这 里 将 与 二 维 卷 积 层 
一 样 ， 将 扩展 池 化 层 为 二 维 ， 代 码 如 下 : 


def max pool (input 2d, width, height): 

# Make 2d input into 4d 

input 3d = tf.expand dims(input 2d, 0) 

input 4d = tf.expand dims(input 3d, 3) 

# Perform max pool 

pool output = tf.nn.max pool (input 4d, ksize-[1, height, 
width, 1], strides-[1, 1, 1, 1], padding='VALID') 

# Drop extra dimensions 

pool output 2d - tf.squeeze(pool output) 

return(pool output 2d) 


my maxpool output = max pool (my activation output, width=2, 
height-2) 


6. 本 例 中 的 全 联接 层 也 与 一 维 数据 的 输出 相似 。 注 意 ， 全 联接 层 的 二 维 输 入 看 作 一 个 对 象 ， 为 了 实现 每 项 连接 到 每 个 输出 ， 我 们 
打 平 二 维 息 阵 ， 然 后 在 做 矩阵 乘法 时 再 扩展 维度 ， 代 码 如 下 : 


def fully connected(input layer, num outputs): 
# Flatten into ld 


flat input = tf.reshape(input layer, [-1]) 

# Create weights 

weight shape = tf.squeeze(tf.pack([tf.shape(flat input), [num 
outputs] ] ) ) 


weight = tf.random normal (weight shape, stddev=0.1) 
bias = tf.random normal (shape= [num outputs] ) 

# Change into 2d 

input 2d = tf.expand dims(flat input, 0) 

# Perform fully connected operations 

full output = tf.add(tf.matmul (input 2d, weight), bias) 
# Drop extra dimensions 

full output 2d = tf.squeeze(full output) 

return(full output 2d) 


my full output - fully connected(my maxpool output, 5) 


7. 初 始 化 变量 ， 创 建 一 个 赋值 字典 ， 代 码 如 下 : 


init = tf.initialize all variables() 
sess.run(init) 


feed dict = {x input 2d: data 2d] 


8. 打 印 每 层 的 输出 结果 ， 代 码 如 下 : 


# Convolution Output 

print ('Input = [10 X 10] array'') 

print ('2x2 Convolution, stride size = [2x2], results in the [5x5] 
arrays") 

print (sess.run(my convolution output, feed dict-feed dict) ) 
# Activation Output 

print ('\nInput = the above [5x5] array'') 

print ('ReLU element wise returns the [5x5] array:'') 

print (sess.run(my activation output, feed dict=feed dict) ) 
# Max Pool Output 

print ('\nInput = the above [5x5] array'') 

print ('MaxPool, stride size = [1x1], results in the [4x4] 
array:'') 

print (sess.run(my maxpool output, feed dict=feed dict) ) 

# Fully Connected Output 

print ('\nInput = the above [4x4] array'') 

print ('Fully connected layer on all four rows with five 
outputs:'') 

print (sess.run(my full output, feed dict=feed dict)) 


9. 输 出 结果 如 下 : 


Input = [10 X 10] array 

2x2 Convolution, stride size - [2x2], results in the [5x5] array: 
[[ 0.37630892 -1.41018617 -2.58821273 -0.32302785 1.18970704] 
[-4.33685207 1.97415686 1.0844903 -1.18965471 0.84643292] 
[ 5.23706436 2.46556497 -0.95119286 1.17715418 4.1117816 ] 
[ 5.86972761 1.2213701 1.59536231 2.66231227 2.28650784] 
[-0.88964868 -2.75502229 4.3449688 2.67776585 -2.23714781] 

Input = the above [5x5] array 


ReLU element wise returns the [5x5] array: 


[[ 0.37630892 0. Ds O's 1.18970704] 
[ O. 1.97415686 1.0844903 0 . 0.84643292] 
[| 5.23706436 2.46556497 0. 1.17715418 4.1117816 ] 
[ 5.86972761 1.2213701 1.59536231 2.66231227 2.28650784] 
[ 0. 0. 4.3449688 257775585. U. ] ] 

Input - the above [5x5] array 

MaxPool, stride size - [1x1], results in the [4x4] array: 


] 
.97415686 1.0844903 1.18970704] 
.46556497 1.17715418 4.1117816 | 
.46556497 2.66231227 4.1117816 | 

2267776555) 


[[ 1.97415686 
[ 5.23706436 
[ 5.86972761 
[ 5.86972761 4.3449688 4.3449688 

Input = the above [4x4] array 


N N HB 


] 


Fully connected layer on all four rows with five outputs: 
[-0.6154139 -1.96987963 -1.88811922 0.20010889 0.32519674] 


65.3 ”工作 原理 


我 们 学 习 了 如 何在 一 维 数据 集 和 二 维 数据 集 上 使 用 TensorFlow 的 卷 积 层 和 池 化 层 。 不 管 输入 数据 集 的 形状 ， 最 后 的 输出 结果 都 是 
相同 维度 的 。 这 现实 了 神经 网 络 算法 层 的 灵活 性 。 本 节 也 让 我 们 理解 了 ， 神 经 网 络 操作 中 形状 和 大 小 的 重要 性 。 


6.6 ”用 TensorFlow 实 现 多 层 伸 经 网 络 


本 节 将 多 层 神经 网 络 应 用 到 实际 场景 中 ， 预 测 低 出 生体 重 数 据 集 。 


6.6.1 开始 


截至 目前 ， 我 们 学 习 了 如 何 创建 神经 网 络 和 层 ， 我 们 将 运用 该 方法 在 低 出 生体 重 数据 集 上 预测 机 儿 出 生体 重 。 我 们 将 创建 一 个 包 
三 个 隐藏 层 的 神经 网 络 。 低 出 生体 重 数 据 集 包括 实际 的 出 生体 重 和 是 人 否 超 过 2500 克 的 标记 。 在 本 例 中 ， 我 们 将 预测 出 生体 重 (回归 
W) ,然后 看 最 后 分 类 结果 的 准确 度 (模型 能 够 签 别 出 生体 重 是 否 超 过 2500 克 ) 。 


a= 
rA 
Tm 


6.6.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 初 始 化 计算 图 会 话 ， 代 码 如 下 : 


import tensorflow as tf 

import matplotlib.pyplot as plt 
import requests 

import numpy as np 

sess - tf.Session() 


2. 使 用 requests 模 块 从 网 站 加 载 数据 集 ， 然 后 分 离 出 需要 的 特征 数据 和 目标 值 ， 代 码 如 下 : 


birthdata url = 'https://www.umass.edu/statdata/statdata/data/ 
lowbwt.dat'! 

birth file = requests.get(birthdata url) 

birth data = birth file.text.split('\r\n') [5:] 

birth header = [x for x in birth data[0].split(' ') if len(x)»-1] 
birth data - [[float(x) for x in y.split(' ') if len(x)»-1] for y 
in birth data[1:] if len(y) >=1] 

y vals = np.array([x[10] for x in birth data]) 


cols of interest = ['AGE', 'LWT', 'RACE', 'SMOKE', 'PTL', 'HT', 
UL, PTV E] 
x vals = np.array([[x[ix] for ix, feature in enumerate(birth | 


header) if feature in cols of interest] for x in birth datal) 


3. 为 了 后 面 可 以 复 现 ， 为 NumPy 和 TensorFlow 设 置 随机 种 子 ， 然 后 声明 批量 大 小 ， 代 码 如 下 : 


seed = 3 

tf.set random seed (seed) 
np.random. seed (seed) 
batch size = 100 


4 .分割 数据 集 为 80-20 的 训练 集 和 测试 集 ， 然 后 使 用 min-may 方 法 归 一 化 输入 特征 数据 为 0 到 1 之 间 ， 代 码 如 下 : 


train indices = np.random.choice(len(x vals), round(len(x 


vals)*0.8), replace-False) 
test indices = np.array(list(set(range(len(x vals))) - set(train 
indices))) 


x vals train - x vals[train indices] 
x vals test - x vals[test indices] 
y vals train - y vals[train indices] 
y vals test - y vals[test indices] 


def normalize cols (m): 
col max = m.max(axis=0) 
col min = m.min(axis=0) 
return (m-col min) / (col max - col min) 


x vals train = np.nan to num(normalize cols(x vals train)) 
x vals test = np.nan to num(normalize cols(x vals test)) 


& 一 归 一 化 输入 特征 数据 是 常用 的 特征 转化 方法 ， 对 神经 网 络 算法 特别 有 帮助 。 如 果 样 本 数据 集 是 以 0 到 1 为 中 心 的 ， 它 将 有 利于 
激励 函数 操作 的 收敛 。 


5. 因 为 有 多 个 层 合 有 相似 的 变量 初始 化 ， 因 此 我 们 将 创建 一 个 初始 化 销 数 ， 该 冰 数 可 以 初始 化 加 权 权 重 和 偏 置 ， 代 码 如 下 : 


def init weight (shape, st dev): 
weight - tf.Variable(tf.random normal(shape, stddev-st dev)) 
return (weight) 


def init bias(shape, st dev): 
bias = tf.Variable(tf.random normal(shape, stddev-st dev) ) 
return (bias) 


6. 初 始 化 占 位 符 。 本 例 中 将 有 八 个 输入 特征 数据 和 一 个 输出 结果 (出 生体 重 ， 单 位 : ve) ， 代 码 如 下 : 


x data = tf.placeholder(shape-[None, 8], dtype-tf.float32) 
y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 


7. 全 联接 层 将 在 三 个 隐藏 层 中 使 用 三 次 ， 为 了 避免 代码 上 的 重复 ， 我 们 将 创建 一 个 层 函 数 来 初始 化 算法 模型 ， 代 码 如 下 : 


def fully connected(input layer, weights, biases): 
layer = tf.add(tf.matmul(input layer, weights), biases) 
return(tf.nn.relu(layer)) 


8. 现 在 创建 算法 模型 。 对 于 每 一 层 (包括 输出 层 ) , RIANNEE., ESE. EAI, = Mae 


的 大 小 分 别 为 22、10 和 3， 代 码 如 下 : 


ae . | 
一 本 例 中 使 用 的 算法 模型 需要 拟 合 522 个 变量 。 下 面 来 看 下 这 个 数值 是 如 何 计算 的 ? 输入 数据 集 和 第 一 隐藏 层 之 间 有 


225 (8X25+25) 个 变量 ， 继 续 用 这 种 方式 计算 隐藏 层 并 加 在 一 起 有 522 (225+260+33+4) RE. RAE, ix go np iis BEL Ja AL 


法 中 的 9 个 变量 要 多 得 多。 


# Create second layer (25 hidden nodes) 

weight 1 = init weight(shape-[8, 25], st dev=10.0) 
bias 1 = init bias(shape=[25], st devz10.0) 

layer 1 - fully connected(x data, weight 1, bias 1) 


# Create second layer (10 hidden nodes) 

weight 2 = init weight (shape=[25, 10], st dev=10.0) 
bias 2 = init bias(shape=[10], st dev=10.0) 

layer 2 = fully connected(layer 1, weight 2, bias 2) 


# Create third layer (3 hidden nodes) 

weight 3 = init weight (shape=[10, 3], st dev=10.0) 
bias 3 = init bias(shape=[3], st dev=10.0) 

layer 3 = fully connected(layer 2, weight 3, bias 3) 


# Create output layer (1 output value) 


weight 4 = init weight (shape=[3, 1], st dev=10.0) 
bias 4 = init bias(shape=[1], st dev=10.0) 
final output = fully connected(layer 3, weight 4, bias 4) 


9. 使 用 L1 沁 数 损失 函数 (绝对 值 ) ， 声 明 优 化 器 (Adam 优 化 器 ) 和 初始 化 变量 ， 代 码 如 下 : 


loss = tf.reduce mean(tf.abs(y target - final output)) 
my opt - tf.train.AdamOptimizer (0.05) 

train step = my opt.minimize(loss) 

init = tf.initialize all variables () 

sess.run(init) 


类 一 木 例 中 为 Adam 优 化 器 选择 的 学 习 率 为 0.05， 有 研究 建议 设置 更 低 的 学 习 率 可 以 产生 更 好 的 结果 。 在 本 节 中 ， 我 们 使 用 比较 大 
的 学 习 率 是 为 了 数据 集 的 一 致 性 和 快速 收敛。 


10. 迭 代 训 练 模 型 200 次 。 下 面 的 代码 也 包括 存储 训 练 损失 和 测试 损失 ， 选 择 随机 批量 大 小 和 每 25 次 运 代 殴打 印 状态 ， 代 码 如 下 : 


# Initialize the loss vectors 
loss vec = [] 
test loss = [] 
for i in range(200): 

# Choose random indices for batch selection 

rand index - np.random.choice(len(x vals train), size-batch 
size) 

# Get random batch 

rand x = x vals train[rand index] 

rand y = np.transpose([y vals train[rand index] ] ) 

# Run the training step 

sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 

# Get and store the train loss 


temp loss = sess.run(loss, feed dict={x data: rand x, y 
target: rand y}) 


loss vec.append(temp loss) 

# Get and store the test loss 

test temp loss = sess.run(loss, feed dict={x data: x vals 
test, y target: np.transpose([y vals test])]) 

test loss.append(test temp loss) 

if (141) $25220: 

print('Generation: ' + str(i+1) + '. Loss = ' + str(temp 

loss)) 


11. 输 出 结果 如 下 : 
D a ilu 
2861.66 


Generation: 25. Loss 


Generation: 50. Loss 


Generation: 75. Loss - 2342.01 
Generation: 100. Loss = 1880.59 
Generation: 125. Loss = 1394.39 
Generation: 150. Loss = 1062.43 
Generation: 175. Loss = 834.641 
Generation: 200. Loss = 848.54 


12. 使 用 matplotlib 模 块 绘制 训练 损失 和 测试 损失 的 代码 ， 所 绘图 像 见 图 6-6: 


plt.plot(loss vec, 'k-', label-'Train Loss') 
plt.plot(test loss, 'r--', label='Test Loss') 
plt.title('Loss per Generation!) 

plt.xlabel ('Generation') 

plt.ylabel('Loss') 

plt.legend(loc='upper right') 

pit .show () 


35000 Loss per Generation 


Train Loss 
Test Loss 


50 100 200 


图 6-6 ”神经 网 络 章法 模型 训练 预测 出 生体 重 的 训练 集 损 失 和 测试 集 损 失 图 (单位 : GL) 。 注 意 ， 在 30 次 和 迭代 训练 后 会 获得 较 好 的 模型 


13. 现 在 我 们 想 比 较 预 测 出 生体 重 结果 和 前 面 章节 的 逻辑 结果 。 在 第 3 章 的 逻辑 回归 算法 中 ， 我 们 在 欠 代 上 王 次 后 得 到 了 大 约 60% 
的 精确 度 。 为 了 在 这 里 做 比较 ， 我 们 将 输出 训练 集 / 测 试 集 的 回归 结果 ， 然 后 传 入 一 个 指示 国 数 (判断 是 否 大 于 2500 克 ) ， 将 回归 结 
果 转 换 成 分 类 结果 。 下 面 的 代码 将 证 明 本 例 模 型 的 准确 度 : 


actuals = np.array([x[1] for x in birth data]) 


test actuals - actuals[test indices] 
train actuals = actuals[train indices] 
test preds = [x[0] for x in sess.run(final output, feed dict={x_ 


data: x vals test])] 

train preds = [x[0] for x in sess.run(final output, feed dict-[x 
data: x vals train})] 

test preds - np.array([1.0 if x«2500.0 else 0.0 for x in test 
preds]) 


train preds = np.array([1.0 if x«2500.0 else 0.0 for x in train 
preds]) 

# Print out accuracies 

test acc = np.mean([x--y for x,y in zip(test preds, test 
actuals)]) 

train acc - np.mean([x--y for x,y in zip(train preds, train 
actuals)]) 

print ('On predicting the category of low birthweight from 
regression output («2500g):'') 

print('Test Accuracy: {}''.format (test acc)) 

print('Train Accuracy: {}''.format (train acc)) 


14. 准 确 度 的 结果 如 下 : 


Test Accuracy: 0.5526315789473685 
Train Accuracy: 0.6688741721854304 


6.6.3 ”工作 原理 
在 本 节 中 ， 我 们 创建 一 个 回归 神经 网 络 模 型 该 模型 有 三 个 全 联接 隐藏 屋 ， 并 用 该 模型 预测 低 出 生体 重 数 据 集 。 与 逻辑 结果 预测 
出 生体 重 是 否 大 于 2500 克 相 比 ， 我 们 得 到 了 相似 的 结果 ， 并 且 运 代 的 次 数 更 少 。 在 下 一 节 中 ， 我 们 将 通过 多 层 逻 辑 神 经 网 络 算法 来 优 
化 逻辑 回归 算法 模型 。 


6.7 ”线性 预测 模型 的 优化 


在 上 一 节 中 ， 我 们 注意 到 需 拟 合 的 参数 数量 远 超 线性 模型 。 在 本 节 中 ， 我 们 试图 用 神经 网 络 算法 模型 来 优化 低 出 生体 重 的 逻辑 模 


6.7.1 开始 


加 载 低 出 生体 重 样本 数据 集 ， 使 用 一 个 带 两 个 隐藏 层 的 全 联接 层 的 神经 网 络 ， 并 采用 sigmoid 激 励 函数 来 拟 合 低 出 生体 重 的 概 
x, 


672 ”动手 做 
1. 导 入 必要 的 编程 库 ， 初 始 化 计算 图 会 话 ， 代 码 如 下 ; 


import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

import requests 

sess = tf.Session() 


20S RESIS, TDSIEDHECHBIBUDUHM 16. AARNE, DOP RRR ERTRERSSERSIEZS B'SMB,, TNE 
实际 出 生体 重 ， 代 码 如 下 : 


birthdata url = 'https://www.umass.edu/statdata/statdata/data/ 
lowbwt.dat''t' 


birth file - requests.get(birthdata url) 

birth data = birth file.text.split([i'Xrin'')I5:] 

birth header = [x for x in birth data[Ol.split(' '') if len(x)»z1] 
birth data = [[float(x) for x in y.split(' '') if len(x)>=1] for y 
in birth data[1:] if len(y) >=1] 

y vals - np.array([x[1] for x in birth data]) 


x vals = np.array([x[2:9] for x in birth datal) 

train indices - np.random.choice(len(x vals), round(len(x 
vals)*0.8), replace-False) 

test indices = np.array (list (set (range (len(x vals))) - set(train 


indices))) 

x vals train - x vals[train indices] 
x vals test - x vals[test indices] 

y vals train - y vals[train indices] 
y vals test - y vals[test indices] 


def normalize cols (m): 
col max = m.max(axis=0) 
col min = m.min(axis=0) 
return (m-col min) / (col max - col min) 


x vals train = np.nan to num(normalize cols(x vals train)) 
x vals test - np.nan to num(normalize cols(x vals test)) 


3. 声 明 批量 大 小 和 占 位 符 ， 代 码 如 下 : 


batch size = 90 
x data = tf.placeholder(shape-[None, 7], dtype-tf.float32) 
y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 


434i JFSB3ERZADEISS EU ARe ANS Ste. ASTOE TECNCHE, Tells SAle—VMEEMABAE ER ER BIER ZA 
Agi, RISES SASKEE, XxIBIgEBJsgmoidf&. itx, mARAHIRAWsigmoidmiay, PTAR T exem ETE 
回 输出 的 sigmoid 值 ， 代 码 如 下 : 


def init variable(shape): 
return(tf.Variable(tf.random normal (shape=shape) ) ) 

# Create a logistic layer definition 

def logistic(input layer, multiplication weight, bias weight, 

activation = True): 


linear layer = tf.add(tf.matmul (input layer, multiplication _ 
weight), bias weight) 


if activation: 

return (tf.nn.sigmoid(linear layer) ) 
else: 

return(linear layer) 


5. 声 明神 经 网 络 的 三 层 (两 个 隐藏 层 和 一 个 输出 层 ) . RNAS ES, — T ESS, HEGERE, fORSATI 
F: 


# First logistic layer (7 inputs to 14 hidden nodes) 

Al = init variable(shape-[7,14]) 

bl = init variable(shape-[14]) 

logistic layerl - logistic(x data, A1, b1) 

# Second logistic layer (14 hidden inputs to 5 hidden nodes) 
A2 = init variable(shape-[14,5]) 

b2 = init variable (shape=[5]) 

logistic layer2 = logistic(logistic layerl, A2, b2) 

4 Final output layer (5 hidden nodes to 1 output) 

A3 = init variable(shape=[5,1]) 

b3 = init variable(shape-[11) 

final output = logistic(logistic layer2, A3, b3, activation-False) 


6 声明 损失 函数 (本 例 使 用 的 是 交叉 糖 损失 函数 ) 和 优化 算法 ， 并 初始 化 变量 ， 代 码 如 下 


# Create loss function 

loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits( 
final output, y target)) 

# Declare optimizer 

my opt = tf.train.AdamOptimizer (learning rate = 0.002) 

train step = my opt.minimize (loss) 

# Initialize variables 

init = tf.initialize all variables () 

sess.run(init) 


ON 
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RL ZUR CEMLAEZ Dg SES. REREH (0 或 者 1) 和 模型 概率 值 (0<x<1) 之 间 的 差 值 。 在 TensorFlow 中 实现 的 交 
38 AH sigmoid () 内 建 的 。 采 用 超 参数 调 优 对 于 寻找 最 好 的 损失 函数 、 学 习 率 和 优化 算法 是 相当 重要 的 ， 但 是 为 了 本 节 示 例 的 
简洁 性 ， 这 里 不 介绍 超 参 数 调 优 。 


7. 为 了 评估 和 比较 算法 模型 ， 创 建 计 算 图 预测 操作 和 准确 大 操作 。 这 使 得 我 们 可 以 传 入 测试 集 并 计算 准确 度 ， 代 码 如 下 : 


prediction = tf.round(tf.nn.sigmoid(final output)) 
predictions correct - tf.cast(tf.equal(prediction, y target), 
tf.float32) 

accuracy = tf.reduce mean(predictions correct) 


B.S ae DIATE. ZSDUIRSUIIER15007X, 3fZ3IRSEER EI DRE SSH NRA RA ESSE EERPSIE , TSR: 


# Initialize loss and accuracy vectors 


loss vec = [] 
train acc = [] 
test acc = [] 


for i in range(1500): 

# Select random indicies for batch selection 

rand index = np.random.choice(len(x vals train), size-batch _ 
Size) 

# Select batch 

rand x = x vals train[rand index] 

rand y = np.transpose([y vals train[rand index] ] ) 

# Run training step 


sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 


# Get training loss 


temp loss = sess.run(loss, feed dict={x data: rand x, y_ 
target: rand y}) 


loss vec.append(temp loss) 
# Get training accuracy 


temp acc train = sess.run(accuracy, feed dict={x data: x vals _ 
train, y target: np.transpose([y vals train])]) 

train acc.append(temp acc train) 

# Get test accuracy 

temp acc test = sess.run(accuracy, feed dict={x data: x vals 
test, y target: np.transpose([y vals test])]) 

test acc.append(temp acc test) 

if (1+1)%150==0: 

print('Loss = '' + str(temp loss)) 


9. 输 出 结果 如 下 : 


Loss = 0.696393 
Loss = 0.591708 
Loss = 0.59214 

Loss = 0.505553 
Loss = 0.541974 
Loss - 0.512707 
Loss = 0.590149 
Loss = 0.502641 
Loss = 0.518047 
Loss = 0.502616 


10. PERS CB ER sez Dn R3matplotlib f Rz r5 SFR RSA SS / LEER SEES : 


# Plot loss over time 

plt.plot(loss vec, 'k-'') 

plt.title('Cross Entropy Loss per Generation'') 
plt.xlabel ('Generation'') 

plt.ylabel('Cross Entropy Loss'') 

plt.show() 

# Plot train and test accuracy 

plt.plot(train acc, 'k-'', label=''Train Set Accuracy'') 
plt.plot(test acc, 'r--'', label-''Test Set Accuracy!') 
plt.title('Train and Test Accuracy'') 

pit.xlabel ('Generation'') 


plt.ylabel ('Accuracy'') 
plt.legend(loc='lower right'') 
plt.show() 


ME6-7F ASW, AZWANSOR, BRIKIET BOA VAR, EARRAN, RRRA RAAR 
果 提 升 。 


Cross Entropy Loss per Generation 


Cross Entropy Loss 
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图 6-7 ”和 迭代 训练 1500 次 的 损失 函数 图 
从 图 6-8 可 以 发 现 ， 该 模型 训练 很 快 就 得 到 了 较 好 的 模型 。 
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图 6-8 训练 集 和 测试 集 的 准确 度 图 


6.7.3 ”工作 原理 


使 用 神经 网 络 训练 模型 数据 有 利 有 痊 。 神 经 网 络 算法 模型 比 先前 的 算法 模型 收 合 得 更 快 ， 并 在 某 些 场景 下 更 准确 ， 但 是 同时 也 要 
付出 代价 : 我 们 需要 训练 更 多 的 模型 变量 ， 并 且 极 有 可 能 过 拟 合 。 我 们 从 图 6-8 中 束 可 以 友 现 ， 训 练 集 的 准确 度 在 持续 地 缓慢 增加 ， 然 
而 测试 集 的 准确 度 有 时 轻微 增加 ， 有 了 时 会 减 小 。 

为 了 解决 欠 拟 合 的 问题 ， 我 们 可 以 增加 训练 模型 的 深度 或 者 欠 代 训练 的 次 数 。 为 了 解决 过 拟 合 的 问题 ， 我 们 可 以 增加 更 多 的 数据 
或 者 使 用 正则 化 技术 。 

另外 ， 要 注意 的 一 点 是 ， 神 经 网 络 算法 模型 变量 并 不 像 线性 模型 那样 具有 可 解释 性 。 神 经 网 络 算法 模型 的 系数 比 线性 模型 更 难 解 
释 其 在 算法 模型 中 的 特征 意义 。 


68 用 TensorFlow 基 于 神经 网 络 实现 井 字模 


为 了 展示 如 何 应 用 神经 网 络 算法 模型 ， 我 们 将 使 用 神经 网 络 来 学 习 优 化 井 字 棋 (Tic Tac Toe) 。 明 确 井 字 棋 是 一 种 决策 性 游戏 ， 
并 且 走 棋 步 骤 优 化 是 确定 的 。 


6.8.1 开始 

为 了 训练 神经 网 络 模型 ， 我 们 有 一 系列 优化 的 不 同 的 走 棋 柑 谐 ， 棋 谱 基 于 棋盘 位 置 询 表 和 对 应 的 最 佳 洛 子 点 。 考 虑 到 棋盘 的 对 称 
性 ， 通 过 只 关心 不 对 称 的 棋盘 位 置 来 简化 棋盘 。 并 字 棋 的 非 单位 变换 (考虑 几何 变换 ) 可 以 通过 90 度 、180 度 、270 度 、Y 轴 对 称 和 X 
轴 对 称 旋 转 获得 。 如 果 这 个 假设 成 之 ， 我 们 使 用 一 系列 的 棋盘 位 置 询 表 和 对 应 的 最 佳 沙子 点 ， 应 用 两 个 随机 变换 ， 然 后 赋值 给 神经 网 


络 算法 模型 学 习 。 


& 一 井 字 棋 是 一 种 决策 类 游戏 ， 注 意 ， 先 下 者 要 么 赢 ， 要 么 继续 走 棋 。 我 们 希望 能 训练 一 个 算法 模型 给 出 最 佳 走 棋 ， 使 得 棋局 继 


在 本 例 中 ， 棋 盘 走 棋 一 方 “x” 用 “1” 表 示 ， 对 手 “O” 用 “-1” 表 示 ， 空 格 棋 用 “0” 表 示 。 图 6-9 展 示 了 棋盘 的 表示 方式 和 走 
TR: 


Board Position Indices 


Sample Board Sample Response 


[-1,0,0,1,-1,-1,0,0,1 | 6 


图 6-9 ”展示 棋盘 和 走 棋 的 表示 方式 。 注 意 ，XX=1，O=-1， 空 格 棋 为 0。 棋 盘 位 置 索引 的 起 始 位 置 标 为 0 


除了 计算 模型 损失 之 外 ， 我 们 将 用 两 种 方法 来 检测 算法 模型 的 性 能 : 第 一 种 检测 方法 是 ， 从 训练 集中 移 除 一 个 位 置 ， 然 后 优化 走 
棋 。 这 能 看 出 神经 网 络 算法 模型 能 否 生 成 以 前 未 有 过 的 走 棋 ( 即 该 走 棋 不 在 训练 集中 ) ; 第 二 种 评估 的 方法 是 ， 直 接 实战 井 字 棋 游 戏 
Ai BOR. 


AF ISIBSTE ES RFS WR ESF EE 
GitHub (https://github.com/nfmcclure/tensorflow_cookbook/tree/master/06 Neural Networks/08 Learning Tic Tac Toe) 


中 可 以 查看 。 


6.8.2 动手 做 


1. 导 入 必要 的 编程 库 ， 代 码 如 下 : 


import tensorflow as tf 

import matplotlib.pyplot as plt 
import csv 

import random 

import numpy as np 

import random 

2. 声 明 训练 异型 的 批量 大 小 ， 代 码 如 下 : 


batch size = 50 


3JJ9 HRR AEREE, RUEDAREN, (ASME: 


def print board (board) : 


svmbolsS = pO 1, Ad 

board plusl = [int(x) + 1 for x in board] 

print (' ' + symbols [board plus1[0]] + ' | ' + symbols [board 
plusi[1]] + ' | ' + symbols [board plus1[2]]) 

DELOC (U Z. 

print(' ' + symbols [board plus1[3]] + ' | ' + symbols[board 
plusi[4]] + ' | ' + symbols [board plus1[5]1) 

Brinci! 1 ) 

print(' ' + symbols [board plus1[6]] + ' | ' + symbols[board _ 
plusi[7]] + ' | ' + symbols [board plusi1[8]]) 


4 .创建 get symmetry () 函数 ， 返 回 变换 之 后 的 新 棋盘 和 最 佳 落 子 点 ， 代 码 如 下 


def get symmetry (board, response, transformation): 
:param board: list of integers 9 long: 
opposing mark - -1 
friendly mark = 1 
empty space = 0 
:param transformation: one of five transformations on a board: 
rotate180, rotate90, rotate270, flip v, flip h 
:return: tuple: (new board, new response) 


if transformation == 'rotatel80': 
new response = 8 - response 


return(board[::-1], new response) 


elif transformation == 'rotate90': 
new response = [6, 3, 0, 7, 4, 1, 8, 5, 2].index (response) 
tuple board = list(zip(* [board[6:9], board[3:6], 
board[0:3]])) 


return([value for item in tuple board for value in item], 
new response) 


elif transformation == 'rotate270': 
new response = [2, 5, 8, 1, 4, 7, 0, 3, 6] .index (response) 
tuple board = list(zip(*[board[0:3], board[3:6], 
board[6:911])) [::-1] 
return([value for item in tuple board for value in item], 
new response) 


elif transformation -- 'flip v': 
new response = [6, 7, 8, 3, 4, 5, 0, 1, 2].index(response) 
return(board[6:9] + board[3:6] + board[0:3], new 
response) 


elif transformation -- 'flip h': 

# flip h = rotatel80, then flip v 
new response = [2, 1, 0, 5, 4, 3, 8, 7, 6].index (response) 
new board = board[::-1] 


return (new board[6:9] + new board[3:6] + new board[0:3], 
new response) 


else: 
raise ValueError('Method not implmented.') 


5. 棋 盘 位 置 列 表 和 对 应 的 最 佳 沙子 点 数据 位 于 .csv 文 件 中 。 我 们 将 创建 get moves from csv () 加 数 来 加 载 文件 中 的 棋盘 和 最 佳 
沙子 点 数据 ， 并 保 仔 成 元 组 ， 代 码 如 下 : 


def get moves from csv(csv file): 


:param csv file: csv file location containing the boards w/ 


responses 


:return: moves: list of moves with index of best response 


moves - [] 
with open(csv file, 'rt') as csvfile: 
reader = csv.reader(csvfile, delimiter=',') 
for row in reader: 
moves.append(([int(x) for x in row[0:9]],int(row[91))) 


return (moves) 


6. 创 建 一 个 get_rand_move () 函数 ， 返 回 一 个 随机 变换 棋盘 和 沙子 点 ， 代 码 如 下 : 


def get rand move (moves, rand transforms-2): 
4 This function performs random transformations on a board. 


(board, response) = random.choice (moves) 


possible transforms = ['rotate90', 'rotatel180', 'rotate270', 


UELTIO w^. tELIp mt] 
for i in range(rand transforms): 
random.choice(possible transforms) 


random transform - 
random 


(board, response) - get symmetry(board, response, 


transform) 
return (board, response) 


7. 初 始 化 计算 图 会 语 ， 加 载 数据 文件 ， 创 建 训练 集 ， 代 码 如 下 : 


sess = tf.Session() 


moves = get moves from csv('base tic tac toe moves.csv') 


# Create a train set: 
train length = 500 
train set = [] 
Lor t in range (train length); 
train set.append(get rand move (moves) ) 


8 .表面 提 到 ， 我 们 将 从 训练 集中 移 除 一 个 棋盘 位 置 和 对 应 的 最 佳 沙 子 点 ， 来 看 训练 的 模型 是 否 可 以 生成 最 佳 走 棋 。 下 面 棋盘 的 最 


在 落 子 点 是 棋盘 位 置 索 引 为 6 的 位 置 ， 代 码 如 下 : 


土 / 石 


1] 


test board = [-1, 0, 0, 1, -1, -1, O, O, 
l= test board] 


train set = [x for x in train set if x[0] 


9. 创 建 init weights () 函数 和 model () BSEX, DEILIR ESERE RE, ite, REHA Ssoftmax () 激 


ARE, AlAsoftmax () 激励 辫 数 会 在 损失 隧 数 中 出 现 ， 代 码 如 下 : 


def init weights (shape): 
return(tf.Variable(tf.random normal (shape) ) ) 


def model(X, A1, A2, biasl, bias2): 
layerl = tf.nn.sigmoid(tf.add(tf.matmul(X, Al), bias1)) 
layer2 = tf.add(tf.matmul(layer1, A2), bias2) 
return (layer2) 


10. 声 明 占 位 得 、 变 量 和 模型 ， 代 码 如 下 : 


X tf.placeholder(dtype-tf.float32, shape-[None, 9]) 
y tf.placeholder(dtype-tf.int32, shape-[None]) 

Al = init weights([9, 811) 

biasl = init weights ([81]) 

A2 = init weights([81, 9]) 

bias2 = init weights ([9]) 

model output = model(X, Al, A2, biasi, bias2) 


11. 声 明 算 法 模型 的 损失 函数 ， 该 函数 是 最 后 输出 的 逻辑 变换 的 平均 softmax 值 。 然 后 声明 训练 步 长 和 优化 器 。 为 了 将 来 可 以 和 训 
练 好 的 模型 对 局 ， 我 们 也 需要 创建 预测 操作 ， 代 码 如 下 : 


loss = tf.reduce mean( tf.nn.sparse softmax cross entropy with 
logits (model output, Y)) 

train step - tf.train.GradientDescentOptimizer(0.025). 

minimize (loss) 

prediction = tf.argmax(model output, 1) 


124] 83,3288 , dept Re, (RORIS: 


# Initialize variables 
init - tf.initialize all variables() 
sess.run(init) 
loss vec = [] 
for i in range (10000): 
# Select random indices for batch 


rand indices = np.random.choice(range(len(train set)), batch 
Size, replace-False) 


# Get batch 

batch data - [train set[i] for i in rand indices] 

x input - [x[0] for x in batch data] 

y target = np.array(ly[1] for y in batch datal) 

# Run training step 

sess.run(train step, feed dict={X: x input, Y: y target]) 
# Get training loss 


temp loss = sess.run(loss, feed dict={X: x input, Y: y 
target }) 
loss vec.append(temp loss) 
if 1%500==0: 
print('iteration ' + str(i) + ' Loss: ' + str(temp loss)) 


13. 绘 制 模型 训练 的 损失 函数 ， 代 码 如 下 〈 对 应 的 图 见 图 6-10) : 


plt.plot(loss vec, 'k-', label='Loss') 
plt.title('Loss (MSE) per Generation!) 
plt.xlabel ('Generation' ) 

plt.ylabel ('Loss') 

plt.show() 


Loss (MSE) per Generation 
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图 6-10 38410000D 2k 6 JE FAREA 04 48 Ac n CR 

下 面 绘制 模型 训练 的 损失 函数 : 

1. 为 了 测试 模型 ， 将 展示 如 何在 测试 棋盘 (从 训练 集中 移 除 的 数据 ) 使 用 。 我 们 希望 看 到 模型 能 生成 预测 藻 子 点 的 索引 ， 并 且 索 
引 值 为 6。 在 大 部 分 情况 下 ， 模 型 都 会 成 功 预测 ， 代 码 如 下 : 

test boards = [test board] 

feed dict = {X: test boards] 

logits = sess.run(model output, feed dict=feed dict) 
predictions = sess.run(prediction, feed dict=feed dict) 


print (predictions) 


2. 输 出 结果 如 下 : 


L6] 


3.79 T BESETPAATIZRRSES, BATAVIA TS. J SCHWZIJBE, Pe T ESCORT E Y RIED, XE 
程序 才能 人 在 该 结束 的 时 间 喊 停 ， 代 码 如 下 : 


def check (board): 
wing = LIO,1,21, 3 
[0,4,8], [2,4,61] 
for i in range(len(wins)): 
if board[wins [i] [0]]22board [wins [i] [1] ] ==board [wins [i] 
[= 
return(1) 
elif board[wins[i] [0] ] ==board[wins [i] [1] ] ==board [wins [i] 
[2] ] em- 1, : 
return(1) 
return (0) 


4I CES DIAN, VIET. mR AHR, BASE, 然后 询问 棋 手 要 在 哪个 位 置 落 棋子 ， 即 输入 0-8 的 索引 
值 ， 接 着 将 其 传 入 训练 模型 进行 预测 。 对 于 模型 的 走 棋 ， 我 们 获得 了 多 个 可 能 的 预测 。 最 后 显示 井 字 棋 洲 戏 的 样 例 。 对 于 该 游戏 来 
说 ， 我 们 上 友 现 训练 的 模型 表现 得 并 不 理想 ， 代 码 如 下 : 


Game tracker = [0., Ous On, On, Oe, Oey D., Oxy BJ 
win logical = False 


num moves = O0 
while not win logical: 
player index = input('Input index of your move (0-8): ') 


num moves += 
# Add player move to game 
game tracker [int (player index)] = 1. 


# Get model's move by first getting all the logits for each 
index 


[potential moves] = sess.run(model output, feed dict-(X: 
[game tracker] }) 

# Now find allowed moves (where game tracker values = 0.0) 

allowed moves = [ix for ix,x in enumerate(game tracker) if 
x==0.0] 


# Find best move by taking argmax of logits if they are in 
allowed moves 

model move = np.argmax([x if 1x in allowed moves else -999.0 
for ix,x in enumerate (potential moves) ] ) 


# Add model move to game 

game tracker[int(model move)] = -1. 

print ('Model has moved') 

print board(game tracker) 

# Now check for win or too many moves 

if check(game tracker)--1 or num moves>=5: 
print ('Game Over!') 


win logical = True 
5. 人 机 交互 的 输出 结果 如 下 : 
Input index of your move (0-8): 4 


Model has moved 
oO | | 


Input index of your move (0-8): 6 
Model has moved 
Oo] | 


Input index of your move (0-8): 2 
Model has moved 


O | | X 
O | X | 
X | | © 


Game Over! 


68.3 工作 原理 


我 们 训练 一 个 神经 网 络 模型 来 玩 井 字 棋 游戏 ,该 模型 需要 传 入 棋盘 位 置 ， 其 中 棋盘 的 位 置 是 用 一 个 九 维 向 量 来 表示 的 。 然 后 预测 


最 佳 沙子 点 。 我 们 需要 赋值 可 能 的 井 字 模 棋 盘 ， 应 用 随机 转换 来 增加 训练 集 的 大 小 。 
为 了 测试 算法 模型 ， 我 们 移 除 一 个 棋盘 位 置 列表 和 对 应 的 最 佳 沙 子 点 ， 然 后 看 训练 模型 能 否 生成 预测 的 最 佳 落 棋 点 。 最 后 ， 我 们 


也 和 训练 模型 进行 对 局 ， 但 是 结果 并 不 理想 ， 我 们 仍然 需要 尝试 不 同 的 架构 和 训 | 练 方法 来 提高 效果 。 


第 7 章 ” 目 然 语言 处 理 


本 章 将 介绍 TensorFlow 在 文本 处 理 中 的 使 用 。 先 介绍 “ 词 袋 ” 的 工作 原理 和 “ 词 袋 ”的 使 用 方法 ， 然 后 讲解 更 高 级 的 词 嵌 入 方 
法 ， 比 如 ，Word2Vec 和 Doc2Vec。 


. 词 袋 的 使 用 

- TensofFlow 实 现 TF-IDEF 算 法 

TensorFlow 实 现 skip-gram 模 型 

TensorFlow 53: ILCBOW 35] He AR 7 

- 4& M) TensorFlow 87 Word2V ec TA i 

: TensorFlow 实 现 基于 Doc2Vec 的 情感 分 析 


注意 ， 读 者 可 以 在 Github 上 找到 本 章 的 所 有 代码 ， 网 址 : https://github.com/nfmcclure/tensorflw-cookbook。 


7.1 文本 处 理 介绍 


到 目前 为 止 ， 我 们 介绍 的 机 器 学 习 算 法 都 是 应 用 到 数值 输入 。 如 果 我 们 想 应 用 到 文本 处 理 ， 残 必须 找到 一 种 方法 将 文本 转化 成 数 
字 。 有 许多 方法 可 以 实现 该 功能 ， 这 里 我 们 将 介绍 一 些 常 用 的 方法 。 


假设 要 处 理 一 句 话 ，TensorFlow 计 这 类 机 器 学 习 变 得 简单 ， 我 们 可 以 把 单词 转换 成 易 观 察 的 有 序 的 数字 。 一 人 句 话 转 换 成 12345。 
然后 当 我 们 看 到 一 个 新 的 句子 ， 机 器 学 习 很 容易 将 其 翻译 成 3405， 用 0 代表 不 能 识别 的 单词 。 在 前 面 的 两 个 例子 中 ， 我 们 把 词汇 限制 
为 6 个 数字 。 对 于 长 文本 ， 我 们 可 以 根据 所 需 选 择 单 词 数 ， 一 般 选 择 的 单词 是 使 用 频率 高 的 词汇 ， 并 用 0 标注 其 他 任意 单词 。 


如 果 单 词 learning 用 数字 4 表示 ， 单 词 makes 用 数字 2 表示 ， 那 很 容易 地 认为 单词 learning 是 单词 makes 的 两 倍 。 因 为 我 们 不 期 户 
两 个 单词 之 间 有 数值 关系 ， 所 以 我 们 假设 这 些 数字 仅仅 代表 分 类 ， 而 不 具有 数值 关系 。 


另 一 个 问题 是 ， 两 句 话 的 长 度 不 一 样 。 我 们 的 算法 模型 期 望 的 输入 是 相同 长 大 的 语句 。 为 了 解决 这 个 问题 ， 我 们 把 句子 转 成 一 个 
稀 芷 向 量 。 该 稀 蚊 向 量 的 规则 是 ， 如 果 对 应 系 引 上 的 单词 仓 企 ， 则 对 应 的 率 引 位 置 的 值 为 1。 


first sentence = [0,1,1,1,1,1]| 


: | I E 


second sentence = [1,0,0,1,1,1] 


这 种 方法 的 缺点 是 损失 了 语句 中 单词 顺序 的 特征 。TensorFlow makes machine learning easy 和 machine learning makes 
TensorFlow easy， 不 同 的 两 句 话 却 具有 相同 句子 稀 蚊 向 量 。 


值得 注意 的 是 ， 这 些 向 量 的 长 度 是 相等 的 ， 并 且 与 我 们 所 选 的 词汇 一 致 。 一 般 情况 下 ， 我 们 会 选择 非常 大 的 词汇 量 ， 所 以 这 些 名 
子 向 量 非常 稀 玻 。 刚 介绍 的 这 种 词 嵌入 方法 称 为 “ 词 袋 ”， 下 一 节 将 会 介绍 。 


另外 一 个 缺点 是 ， 单 词 is 和 TensorFlow 具 有 相同 的 数值 化 率 引 值 1。 但 是 我 们 很 明显 地 看 到 单词 is 要 比 单词 TensorFlow 的 重要 性 


我 们 将 在 本 草 中 阐述 不 同 的 词 赔 入 方法 ， 试 图 解决 上 面 的 问题 。 下 面 先 来 看 下 “ 词 袋 ”的 实现 。 


7.2 REH 


本 书展 示 如 何 使 用 TensorFlow 的 “ 词 袋 ” 仍 入 。“ 词 袋 ” 众 入 映射 的 原理 在 上 一 节 已 经 讲 过 ， 这 里 只 展示 如 何 使 用 “ "OBRA 
来 进行 垃圾 短信 的 预测 。 
7.2.1 开始 

为 了 阐述 在 文本 数据 集 上 如 何 使 用 “ ， 我 们 将 使 用 UCI 机 器 学 习 数 据 库 中 的 垃圾 短信 文本 数据 集 
eet ie 该 垃圾 短信 数据 集中 有 正常 短信 和 垃圾 短信 。 我 们 将 下 载 该 数 
据 集 ， 人 存储 好 以 备 后 用 。 然 后 用 “ 词 袋 ” 的 方法 处 理 ， 预 测 一 条 文本 是 否 为 垃圾 短信 。 我 们 将 使 用 不 含 隐藏 层 的 逻辑 模型 来 训练 “ 词 


袋 ”， 采 用 批量 大 小 为 1 的 随机 训练 ， 并 计算 留存 的 测试 集 的 准确 度 。 


7.2.0 mE 


STAM, BIRRA, ADEE, TARAR, VIRI EREREACK TRU fa. 


1. 导 入 必要 的 编程 库 。 本 例 中 需要 .zip 文 件 库 来 解压 从 UCI 机 器 学 习 数 据 库 中 下 载 的 ,zip 文件， 代码 如 下 : 


import tensorflow as tf 

import matplotlib.pyplot as plt 
import os 

import numpy as np 

import csv 

import string 

import requests 

import io 

from zipfile import ZipFile 
from tensorflow.contrib import learn 
sess = tf.Session() 


2.79 S iL AIS THA SABA PARMAR, BATS Rola, ASR. RS T MAES SS 
下 载 。 下 载 完 文本 数据 集 后 ， 抽 取 输 入 数据 和 目标 数据 ， 并 调整 目标 值 (垃圾 短信 (spam) 置 为 1， 正 单 短信 (ham) BAO). A 
体 代码 如 下 : 


RB: 


save file name = os.path.join('temp','temp spam data.csv') 
if os.path.isfile(save file name): 
text data - [] 
with open(save file name, 'r') as temp output file: 
reader - csv.reader(temp output file) 
for row in reader: 
text data.append(row) 
else: 
zip url = 'http://archive.ics.uci.edu/ml/machine-learning- 
databases/00228/smsspamcollection.zip' 
r requests.get (zip url) 
Z ZipFile(io.BytesIO(r.content)) 
file = z.read('SMSSpamCollection') 


# Format Data 

text data file.decode () 

text data = text data.encode('ascii',errors='ignore' ) 

text data = text data.decode().split('\n') 

text data = [x.split('\t') for x in text data if len(x)»-1] 


# And write to csv 
with open(save file name, 'w') as temp output file: 
writer - csv.writer(temp output file) 
writer.writerows(text data) 
texts - [x[1] for x in text data] 
target - [x[0] for x in text data] 
# Relabel 'spam' as 1, 'ham' as 0 
target = [1 if x--'spam' else 0 for x in target] 


3. 为 了 减 小 词汇 量 大 小 ， 我 们 对 文本 进行 规则 化 处 理 。 移 除 文 本 中 大 小 写 和 数字 的 影响 ， 代 码 如 下 : 


# Convert to lower case 

texts - [x.lower() for x in texts] 

# Remove punctuation 

texte = ['',301nlC For cC 1H x Lr 6 BoL 158 Sbring.punctuatioh) TOL 
x in texts] 

# Remove numbers 

texts - [''.join(c for c in x if c not in '0123456789') for x in 
texts] 

# Trim extra whitespace 

texts = [' '.join(x.split()) for x in texts] 


4. 计 算 最 长 句子 大 小 。 我 们 使 用 文本 数据 集 的 文本 长 度 直 方 图 ( 见 图 7-1) ， 并 取 最 佳 截止 点 (本 例 中 取 值 为 225 个 单词 ) ， 代 码 如 


# Plot histogram of text lengths 

text lengths = [len(x.split()) for x in texts] 
text lengths - [x for x in text lengths if x « 50] 
plt.hist (text lengths, bins=25) 
plt.title('Histogram of # of Words in Texts') 
sentence size = 25 


min word freq 3 


onn Histogram of # of Words in Texts 


G00 
700 
600 
300 
400 
300 
200 


100 


0 
ü 10 40) 30 4) 50) 


图 7-1 文本 数据 中 的 单词 数 的 直方 图 。 我 们 用 该 直方 图 选 出 最 大 单词 长 度 。 本 例 设 为 25 个 单词 ， 但 是 也 可 以 设 为 30 或 者 40 
5.TensorFlow 自 带 分 词 器 VocabularyProcessor () ， 访 国 数位 于 learn.preprocessing 库 ， 代 人 码 如 下 : 


vocab processor = learn.preprocessing. 
VocabularyProcessor(sentence size, min frequency=min word freq) 
vocab processor.fit transform(texts) 

embedding size = len(vocab processor.vocabulary ) 


6 分 割 数据 集 为 训练 集 和 测试 集 ， 代 码 如 下 


train indices = np.random.choice(len(texts), 


round(len(texts)*0.8), replace-False) 

test indices = np.array(list(set(range(len(texts))) - set(train 
indices))) 

texts train - [x for ix, x in enumerate(texts) if ix in train 
indices] i 
texts test = [x for ix, x in enumerate(texts) if ix in test 
indices] i 
target train - [x for ix, x in enumerate(target) if ix in train 
indices] i 
target test - [x for ix, x in enumerate(target) if ix in test 
indices] i 


7. ÆRA. T5 5] SBisEBEZRS|, BHSxRSIfeBkone-hot[]E, ZABAR AS, Sell E FgIZOBIEZJ&HT Sask 
RAs, AMARA, See: 


identity mat = tfi.diag(tf.ones (shape= [embedding size] ) ) 


8. 因 为 最 后 要 进行 逻辑 回归 预测 垃圾 短信 的 概率 ， 所 以 我 们 需要 声明 还 辑 回 归 变 量 。 然 后 声明 占 位 待 ， 注 意 x_data 输 入 占 位 符 是 
整数 类 型 ， 因 为 它 被 用 来 查找 单位 矩阵 的 行 索 3 引 ， 而 TensorFlow 要 求 其 为 整数 类 型 ， 代 码 如 下 : 


tf.Variable(tf.random normal (shape= [embedding size,1])) 
= tf.Variable(tf.random normal (shape=[1,1])) 


data = tf.placeholder (shape=[sentence size], dtype=tf.int32) 


A 

b 

# Initialize placeholders 

x 

y target = tf.placeholder(shapes[1, 1], dtypestf.float32) 


9.fs&FdTensorFlowBS ERN BEX Rata OF PAY ial 7 AOBIERJone-hotr]z, AARAA kA, fORBAITT: 
x embed = tf.nn.embedding lookup(identity mat, x data) 


x col sums = tf.reduce sum(x embed, 0) 


10. 有 了 每 个 句子 的 固定 长 度 的 句子 癌 量 之 后 ， 我 们 进行 逻辑 回归 训练 。 声 明 逻 辑 回归 算法 模型 。 因 为 一 次 做 一 个 数据 点 的 随机 训 
练 ， 所 有 扩展 输入 数据 的 维度 ， 并 进行 线性 回归 操作 。 记 住 ，TensorFlow 中 的 损失 函数 已 经 包含 了 sigmoid 激 励 函 数 ， 所 以 我 们 不 需 
要 在 输出 时 加 入 激励 溺 数 ， 代 码 如 下 : 


X col sums 2D = tf.expand dims (x col sums, 0) 
model output = tf.add(tf.matmul(x col sums 2D, A), b) 


11.F5BBVIIZSPRSTAACERZX. TUESEARUUUM SS, TURBAT: 


loss = tf.reduce mean(tf.nn.sigmoid cross entropy with 
logits (model output, y target) ) 

# Prediction operation 

prediction - tf.sigmoid(model output) 


# Declare optimizer 
my opt = tf.train.GradientDescentOptimizer (0.001) 


train step = my opt.minimize(loss) 


12. 接 下 来 初始 化 计算 图 中 的 变量 ， 代 码 如 下 : 


init = tf.initialize all variables() 


sess.run(init) 


13:931 VIII, TensorFlowRSPs&ERZXvocab processor.fit () 是 一 个 符合 本 例 的 生成 器 。 我 们 将 使 用 该 函数 来 进行 随机 训 
练 逻辑 回归 模型 。 为 了 得 到 准确 度 的 趋势 ， 我 们 保留 最 近 50 次 迭代 的 平均 值 。 如 果 只 绘制 当前 值 ， 我 们 会 依赖 预测 训练 数据 点 是 否 


确 而 得 到 1 或 者 0 的 值 ， 代 码 如 下 : 


loss vec = [] 
train acc all - 
train acc avg - 


[] 


for ix, t in enumerate(vocab processor.fit transform(texts 


train)): 


y data = [[target trainl[ix]lll| 


sess.run(train step, feed dict={x data: t, y target: y data]) 


temp loss - 
data]) 


sess.run(loss, feed dict={x data: t, y target: y 


loss vec.append(temp loss) 


if (1x+1)%10==0: 
print('Training Observation #' + str(ix+1) + ': Loss = ' + 


str(temp loss) ) 


# Keep trailing average of past 50 observations accuracy 
# Get prediction of single observation 
[[temp pred]] = sess.run (prediction, feed dict={x data:t, y 


target:y data}) 


# Get True/False if prediction is accurate 
train acc temp = target train[ix]--np.round(temp pred) 


train acc all.append(train acc temp) 


if len(train acc all) »- 50: 
train acc avg.append(np.mean(train acc all[-50:])) 


14. 训 练 结果 如 下 : 


Starting Training Over 4459 Sentences. 


Training Observation #10: Loss 
Training Observation #20: Loss 
Training Observation #30: Loss 
Training Observation 44430: Loss - 


I 
U1 


.45322 

.58226 

.0 
.84636 


由 dl 
O Ww 


| 
Training Observation 44440: Loss = 1.46626e-05 
9 


Training Observation #4450: Loss = 


.045941 


15. 为 了 得 到 测试 集 的 准确 度 ， 我 们 重复 处 理 过程 ， 对 测试 文本 只 进行 预测 操作 ， 而 不 进行 训练 操作 ， 代 码 如 下 : 


print('Getting Test Set Accuracy') 


test acc all = [] 


for ix, t in enumerate(vocab processor.fit transform(texts test)): 


y data = [[target test[ix]l] 


LL ixx*lj*5905-05 
print ('Test Observation #' + str(ix-«1)) 


# Keep trailing average of past 50 observations accuracy 


# Get prediction of single observation 


[[temp pred]] 


target:y data]) 


= sess.run(prediction, feed dict={x data:t, y 


# Get True/False if prediction is accurate 


test acc temp 


test acc all 
print ('\nOverall 
Getting Test Set 
Test Observation 
Test Observation 
Test Observation 
Test Observation 
Test Observation 
Test Observation 


= target test [1x] ==np.round(temp pred) 


.append (test acc temp) 


Test Accuracy: {}'.format (np.mean(test acc all) ) ) 
Accuracy For 1115 Sentences. 

#10 

#20 

#30 

#1000 

#1050 

#1100 


Overall Test Accuracy: 0.8035874439461883 


7.2.3 ”工作 原理 


在 本 例 中 ,我们 处 理 垃圾 短信 文本 数据 。 使 用 TensorFlow 的 词汇 处 理 消 数 来 创建 标准 的 词汇 和 句子 向 量 ， 该 句子 向 量 是 文本 单词 
向 量 的 总 和 。 我 们 在 逻辑 回归 算法 模型 中 进行 句子 向量 的 训练 ， 预 测 垃圾 短信 获得 了 大 约 80% 的 准确 度 。 


7.24 延伸 学 习 
值得 注意 的 是 本 例 中 限制 句子 长 度 的 动机 。 本 例 限制 文本 大 小 为 25 个 单词 。 这 是 “ 词 安 ”的 最 佳 实 践 ， 因 为 文本 长 度 影响 到 预测 
结果 。 想 象 一 下 ， 如 果 我 们 友 现 一 个 蛙 词 预测 为 正 党 短信， 然后 该 单词 出 现 许多 次 ， 那 束 变 成 垃圾 短信 了 。 


事实 上 ， 这 在 数据 不 均衡 的 情况 下 最 普遍 。 在 数据 不 均衡 的 情况 下 ， 垃 圾 短信 变 得 很 难 找 到 ， 而 正常 短信 很 容易 友 现 。 由 于 这 个 
事实 ， 我 们 创建 的 词汇 融会 严重 倾斜 到 正音 短信 数据 这 边 。 如 果 我 们 不 限制 文本 长 度 ， 那 有 垃圾 短信 者 会 利用 这 一 点 ， 创 建 很 长 的 文 
本 ， 而 长 文本 触 友 逻 辑 回归 模型 中 非 垃圾 短信 因素 的 概率 更 高 。 


下 一 节 试 图 以 词 频 来 更 好 地 解决 该 问题 


7.3 用 TensorFlow 实 现 TF-1IDF 算 法 


因为 我 们 为 每 个 单词 选择 词 刻 入 ， 所 以 可 能 需要 调整 录 些 特定 单词 的 权重 。 在 这 种 策略 下 ， 应 提高 有 用 词汇 的 权重 ， 降 低音 用 单 
词 或 者 无 意义 单间 的 权重 。 本 节 将 展示 使 用 该 方法 的 词 嵌 入 。 


7.3.1 开始 


TF-IDF (Text Frequency-Inverse Document Frequency) 算法 表示 为 词 频 和 逆 文 档 频 率 的 乘积 。 


上 一 节 介 绍 了 “ 词 余 ”的 方法 ， 其 为 句子 中 每 个 单词 出 现 一 次 就 分 配 一 个 值 “1”。 这 可 能 不 是 太 理想 的 方法 ， 每 类 句子 (前 面 的 
例子 中 分 垃圾 短信 和 非 垃圾 短信 ) 可 能 有 相同 频率 的 the、and 和 其 他 的 单词 。 但 是 Viagra 和 sale 这 类 词 可 能 在 判断 短信 是 否 为 垃圾 短 
信 时 应 该 增加 权重 。 


首先 ， 我 们 考虑 词 频 。 词 频 是 某 个 单词 在 文档 中 出 现 的 频率 。 词 频 (TF) 的 目的 是 找到 每 个 单词 的 权重 : 
Wad F 


但 是 the 和 andx 之 类 的 单词 在 每 个 文档 中 出 现 的 频率 都 很 高 ， 我 们 需要 降低 这 些 单词 的 权重 。 所 以 ， 用 词 频 (TF) 乘 以 逆 文 档 频 
率 〈 其 为 折 有 包含 该 单词 的 文档 频率 的 倒数 ) 即 可 找到 重要 的 日 词 。 但 是 因为 语料库 往往 数量 巨大 ， 普 遍 的 做 法 是 对 文档 频率 求 log。 
这 样 束 得 到 每 个 单词 在 每 个 文档 中 的 TF-IDF 公 式 : 


Wtf- idf — Wi ° log |z 


] 


Wif- idf — We ° log Waf 


其 中 ，Wtf 是 文档 的 词 频 ，Wdf 是 包含 该 单词 的 所 有 文档 的 总 频率 。TF-IDF 值 高 代表 看 单词 在 文档 中 的 重要 性 。 


创建 TF-1DF 向 量 要 求 向 内 存 加 载 所 有 的 文本 数据 进 ， 并 在 开始 训 | 练 模型 之 前 计算 每 个 单词 发 生 的 次 数 。 由 于 该 原因 ， 我 们 将 使 用 
scikit-learn 创 建 TF-1DF 向 量 ， 但 是 采用 TensorFlow 拟 合 逻 辑 回 归 模 型 。 


7.3.2 动手 做 


1. 导 入 必要 的 编程 库 。 本 例 中 会 导入 scikit-learn 的 TF-IDF 处 理 模块 处 理 文本 数据 集 ， 代 码 如 下 : 


import tensorflow as tf 

import matplotlib.pyplot as plt 
import csv 

import numpy as np 

import os 

import string 

import requests 

import io 

import nltk 

from zipfile import ZipFile 
from sklearn.feature extraction.text import TfidfVectorizer 


2. 创 建 一 个 计算 图 会 话 ， 声 明 批量 大 小 和 词汇 的 最 大 长 度 ， 代 码 如 下 : 


sess = tf.Session() 
batch size= 200 
max featurtes = 1000 


3. 加 载 文 本 数据 集 。 可 以 从 网 站 下 载 或 者 从 上 次 保存 的 temp 文 件 夹 加 载 ， 代 码 如 下 : 


save file name = os.path.join('temp','temp spam data.csv') 
if os.path.isfile(save file name): 

text data - [] 

with open(save file name, 'r') as temp output file: 

reader - csv.reader(temp output file) 
for row in reader: 
text data.append (row) 
else: 

zip url = 'http://archive.ics.uci.edu/ml/machine-learning- 
databases/00228/smsspamcollection.zip' 

r - requests.get(zip url) 

Z ZipFile(io.BytesIO(r.content)) 
file = z.read('SMSSpamCollection' ) 
# Format Data 
text data = file.decode() 


text data = text data.encode('ascii',errors-'ignore!) 
text data = text data.decode().split('\n') 
text data = [x.split('\t') for x in text data if len(x) >=1] 


# And write to csv 
with open(save file name, 'w') as temp output file: 
writer - csv.writer(temp output file) 
writer.writerows(text data) 
texts - [x[1] for x in text data] 
target = [x[0] for x in text data] 
4 Relabel 'spam' as 1, 'ham' as 0 
target = [1. if x=='spam' else 0. for x in target] 


4 BLA). EMIPRSSARS TRANS, aR STS, TURBAT: 


# Lower case 

texts = [x.lower() for x in texts] 

# Remove punctuation 

texts = [''.join(c for c in x if c not in string.punctuation) for 
x in texts] 

# Remove numbers 

texte = ['*,Jjo01n[(c for ¢ in x if G not in '0123456789') for x n 
texts] 

# Trim extra whitespace 

texts - [' '.join(x.split()) for x in texts] 


5.73 f fs&FBscikit-learnBJTF-IDFRPESESZX, 我们 需要 输入 切 分 好 的 语句 (即将 句子 切 分 为 相 天 的 单词 ) 。nltk 包 可 以 提供 非常 棒 
的 分 词 器 来 实现 分 词 功 能 ， 代 码 如 下 : 


def tokenizer(text): 
words = nltk.word tokenize (text) 
return words 

# Create TF-IDF of texts 


tfidf = TfidfVectorizer(tokenizer-tokenizer, stop words='english', 
max features-max features) 


sparse tfidf texts - tfidf.fit transform(texts) 


6 分 割 数据 集 为 训练 集 和 测试 集 ， 代 码 如 下 


train indices = np.random.choice(sparse tfidf texts.shapel0], 
round(0.8*sparse tfidf texts.shape[0]), replace-False)3test 


indices - np.array(list(set(range(sparse tfidf texts.shape[0])) - 
set(train indices))) 


texts train - sparse tfidf texts[train indices] 
texts test - sparse tfidf texts[test indices] 


target train - np.array([x for ix, x in enumerate(target) if ix in 
train indices]) 


target test - np.array([x for ix, x in enumerate(target) if ix in 
test indices]) 


7. 声 明 逻 辑 回 归 模 型 的 变量 和 数据 集 的 占 位 待 ， 代 码 如 下 : 


A = tf.Variable(tf.random normal (shape=[max features,1])) 

b = tf.Variable(tf.random normal(shape-[1,1])) 

# Initialize placeholders 

x data = tf.placeholder(shape-[None, max features], dtype-tf. 
float32) 


y target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 
8. 声 明 算法 模型 操作 和 损失 函数 。 注 意 ， 逻 辑 回归 算 法 的 sigmoid 部 分 是 在 损失 函数 中 实现 的 ， 代 码 如 下 : 


model output = tf.add(tf.matmul(x data, A), b) 


loss - tf.reduce mean(tf.nn.sigmoid cross entropy with 
logits (model output, y target) ) 


9. 为 计算 图 增加 预测 函数 和 准确 度 函 数 (可 以 让 我 们 看 到 模型 训练 中 训练 集 和 测试 集 的 准确 度 ) ， 代 码 如 下 : 


prediction = tf.round(tf.sigmoid (model output)) 


predictions correct = tf.cast(tf.equal (prediction, y target), 
tf.float32) 
accuracy = tf.reduce mean(predictions correct) 


10. 声 明 优化 器 ， 初 始 化 计算 图 中 的 变量 ,代码 如 下 : 


my opt = tf.train.GradientDescentOptimizer (0.0025) 
train step - my opt.minimize(loss) 

# Intitialize Variables 

init = tf.initialize all variables () 
sess.run(init) 


11. 遍 历 迭 代 训 | 练 模型 10000 次 ， 记 录 测 试 集 和 训练 集 损失 ， 以 及 每 迭代 100 次 的 准确 度 ， 然 后 每 迭代 500 次 就 打印 状态 信息 ， 代 码 
如 下 : 


train loss = [] 


test loss = [] 
train acc = [] 
test acc = [] 


1 data = [] 
for i in range (10000): 
rand index = np.random.choice(texts train.shapel0], 
size=batch size) 
rand x = texts train[rand index].todense() 
rand y = np.transpose([target train[rand index] ] ) 
sess.run(train step, feed dict={x data: rand x, y target: 
rand y}) 


# Only record loss and accuracy every 100 generations 
if (i+1)%100==0: 
i data.append(i-«1) 
train loss temp = sess.run(loss, feed dict={x data: 
rand x, y target: rand yj) 
train loss.append(train loss temp) 


test loss temp = sess.run(loss, feed dict={x data: texts 
test.todense(), y target: np.transpose([target test])]) 


test loss.append(test loss temp) 


train acc temp = sess.run(accuracy, feed dict={x data: 
rand x, y target: rand y}) 


train acc.append(train acc temp) 


test acc temp - sess.run(accuracy, feed dict-(x data: 
texts test.todense(), y target: np.transpose([target test])]) 
test acc.append(test acc temp) 
if (1+1)%500==0: 
acc and loss = [i-«1, train loss temp, test loss temp, 
train acc temp, test acc temp] " " " E 
acc and loss = [np.round(x,2) for x in acc and loss] 


print('Generation # {}. Train Loss (Test Loss): {:.2f} 
((:.2£]). Train Acc (Test Acc): (:.2f) ({:.2£})'.format(*acc and - 
loss)) 


12. 输 出 结果 如 下 : 


Generation # 500. Train Loss (Test Loss): 0.69 (0.73). Train Acc 
(Test Acc): 0.62 (0.57) 

Generation # 1000. Train Loss (Test Loss): 0.62 (0.63). Train Acc 
(Test Acc): 0.68 (0.66) 


Generation # 9500. Train Loss (Test Loss): 0.39 (0.45). Train Acc 
(Test Acc): 0.89 (0.85) 
Generation # 10000. Train Loss (Test Loss): 0.48 (0.45). Train Acc 
(Test Acc): 0.84 (0.85) 


13. 绘 制 训练 集 和 测试 集 的 准确 度 和 损失 函数 ( 见 图 7-2 和 图 7-3) : 


16 Cross Entropy Loss per Generation 


— Train Loss 
- == Test Loss 
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图 7-3 ”逻辑 回归 模型 计算 TF-IDF 值 的 训练 集 和 测试 集 准 确 度 图 


7.8.3 ”工作 原理 


使 用 TF-IDF 值 来 进行 模型 训练 ， 其 预测 函数 的 准确 度 由 上 一 节 “ 词 袋 ” 方法 的 80% 提 高 到 90%。 我 们 采用 scikit-learn 的 TF-IDF 处 
理 函 数 并 用 TF-IDF 值 进行 逻辑 回归 模型 训练 。 


7.34 JERZY 


本 节 解决 了 单词 重要 性 的 问题 ， 但 是 没有 解决 单词 顺序 的 问题 。“ 词 袋 ”方法 和 TF-IDF 方 法 都 未 考虑 句子 中 单词 的 顺序 这 一 特 
征 。 下 一 节 引 入 的 Word2Vec 技 术 试图 解决 该 问题 。 
7.4 用 TensorFlow 实 现 skip-gram 模 型 


在 上 一 节 中 ， 我 们 已 经 描述 了 训练 模型 前 的 词 瞪 套 。 使 用 神经 网 络 算法 可 以 得 到 训练 过 程 中 词 嵌 套 向 量 。 本 节 将 前 述 的 方法 称 为 
skip-grami E, 


7.4.1 开始 
在 前 一 节 中 ， 我 们 在 创建 词 向 量 时 未 考虑 相关 单词 顺序 特征 。 在 2013 年 早期 ， 就 职 于 Google 的 Tomas Mikolov 和 另 一 些 研究 者 
上 友 表 了 一 篇 论文 (https://arxiv.org/abs/1301.3781) ， 并 创建 了 一 种 词 向 量 方 法 来 解决 该 问题 ， 该 方法 被 命名 为 Word2Vec。 


基本 的 思路 是 创建 词 向 量 来 表现 单词 上 下 文 关 系 。 我 们 寻找 如 何 理解 互相 关联 的 单词 。 下 面 是 单词 如 何 馈 人 套 的 例子 : 


king - man + woman = queen 
India pale ale - hops + malt = stout 


如 果 仅 仪 考虑 每 个 单词 位 置 乙 间 的 关系 ， 那 么 我 们 可 以 得 到 数值 化 的 表示 。 如 果 分 析 大 量 连续 文档 ， 我 们 可 以 看 到 ， 单 词 king、 
man 和 和 queen 是 紧密 联系 的 。 如 果 已 和 man 和 woman 语 义 相 关联 ， 那 我 们 可 以 得 出 单词 man 和 king 的 天 系 就 如 同 单 词 woman 和 和 
queen 的 关系 。 


为 了 找到 这 种 词 肉 套 ， 我 们 使 用 神经 网 络 算法 预测 输入 单词 的 上 下 文 相关 的 单词 。 我 们 也 可 以 很 简单 地 将 其 转化 成 给 出 一 个 上 下 
文 相关 的 单词 集合 来 预测 目标 单词 。 我 们 先 讲解 第 一 种 方法 ， 不 过 在 Word2Vec 程 序 中 都 有 实现 。 第 一 种 给 出 目标 单词 进行 上 下 文 相 
天 单词 的 预测 ， 称 为 skip-gram 模 型 ( 见 图 7-4) 。 在 下 一 节 中 ， 我 们 将 实现 另外 一 种 方法 ， 从 上 下 文 相关 单词 集合 中 预测 目标 单词 ， 
该 方法 称 为 “连续 词 袋 ” (continuous bag of words，CBOW) 方法 : 


本 节 将 使 用 康 奈 尔 大 学 的 电影 影评 数据 集 (http://www.cs.cornell.edu/people/pabo/movie-review-data/) 来 实现 skip-gram 


模型 。 


74.2 ”动手 做 


本 节 将 创建 几 个 辅助 函数 : 加 载 数据 图 数 、 归 一 化 文本 函数 、 生 成 词汇 表 函 数 和 生成 批量 数据 国 数 。 在 实现 这 些 国 数 之 后 ， 我 们 
开始 训练 词 向 量 。 我 们 不 预测 任何 目标 变量 ,而 是 拟 合 词 同 量 。 


1. 导 入 必要 的 编程 库 ， 开 始 一 个 计算 图 会 话 ， 代 码 如 下 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


tensorflow as tf 
matplotlib.pyplot as plt 
numpy as np 
random 

OS 

string 

requests 
collections 

he 

tarfile 
urllib.request 


from nltk.corpus import stopwords 


sess = tf.Session() 
Sentence: “tensorflow makes machine learning easy” 
Example vocab indices: [ 31, 15, 22, f 3] 
Embedding Matrix 

-— 6111-05. Word2vec: Skip-gram 
row 2 0.3 -0.1 0.25... 
-— Pe e ees Consider the sample window: “makes machine learning” 
B H Target word: "machine"-22 
row 7 -0.2 0.1 0.15 ... 
| | Context window: “makes”=15, “learning’=7 
row 15 0.90.1-0.1... Inputs 

22 
row 22 0.71802... 22 
7 i Data Pairs (input, output): 
— nini (embedding(22), embedding(15)) 

(embedding(22), embedding(7)) 

row N 07-01-15... 


Example with indices of [7, 3]: 


E 


-0.2 12 0.15 .. 


12 07 -0.3 ... 


embedding([7, 3]) = 


图 7-4 Word2Vec 中 的 skip-gram 模 型 。skip-gram 模 型 从 目标 单词 中 预测 上 下 文 窗口 大 小 (两 边 宽度 均 为 1) 内 的 单词 


2. 声 明 一 些 模 型 参数 。 一 次 将 查找 50 对 词 同 套 (批量 大 小 ) 。 每 个 单词 的 馈 套 大 小 是 一 个 长 度 为 200 的 向 量 ， 并 且 仪 仅 考 虑 频次 
为 10000 的 单词 (其 他 单词 分 类 为 “unknown”) 。 我 们 将 友 代 训练 ?0000 次 ， 每 迭 代 500 次 打印 损失 函数 。 然 后 声 明 一 个 
num_sampled 变 量 ， 该 变量 将 人 在 损失 函数 中 使 用 ， 具 体 解释 见 下 文 。 我 们 也 需要 声明 skip-gram 模 型 上 下 文 窗 口 大 小 ， 本 例 中 窗口 大 
小 设 为 2， 即 将 查找 目标 单词 两 边 各 两 个 上 下 文 单 词 。 我 们 使 用 Python 的 nltk 包 做 “ 停 词 ” 步 又。 为 了 检测 词 向 量 的 性 能 ， 选 择 一 些 


音 用 的 电影 影评 单词 ， 每 迭代 2000 次 训练 打印 最 近邻 域 单 局。 具体 代码 如 下 : 


batch size = 50 

embedding size - 200 

vocabulary size - 10000 

generations - 50000 

print loss every - 500 

num sampled - int(batch size/2) 

window size - 2 

stops = stopwords.words('english' ) 

print valid every = 2000 

valid words = ['cliche', 'love', 'hate', 'silly', ‘'sad'] 


3. 声 明 数 据 加 载 函 数 ， 该 国 数 会 在 下 载 数据 前 先 检测 是 否 已 下 载 过 该 数据 集 ， 如 果 已 下 载 过 ， 将 直接 从 磁盘 加 载 数据 ， 代 码 如 
RB: 


def load movie data(): 
save folder name - 'temp' 
pos file - os.path.join(save folder name, 'rt-polarity.pos') 
neg file = os.path.join(save folder name, 'rt-polarity.neg') 
4 Check if files are already downloaded 
if os.path.exists(save folder name): 
pos data - [] 
with open (pos file, 'r') as temp pos file: 
for row in temp pos file: 
pos data.append (row) 
neg data - [] 
with open(neg file, 'r') as temp neg file: 
for row in temp neg file: 
neg data.append(row) 
else: # If not downloaded, download and save 


movie data url - 'http://www.cs.cornell.edu/people/pabo/ 
movie-review-data/rt-polaritydata.tar.gz' 


stream data - urllib.request.urlopen(movie data url) 
tmp - io.BytesIO() 
while True: 


S = stream data.read(16384) 
if not s: 
break 


tmp.write(s) 
stream data.close() 


tmp.seek(0) 
tar file = tarfile.open(fileobj=tmp, mode="r:gz") 
pos - tar file.extractfile('rt-polaritydata/rt-polarity. 
pos') 
neg - tar file.extractfile('rt-polaritydata/rt-polarity. 
neg!) 
# Save pos/neg reviews 
pos data - [] 
for line in pos: 
pos data.append(line.decode('ISO-8859-1!). 
encode ('ascii',errors='ignore') .decode () ) 


neg data = [] 
for line in neg: 


neg data.append(line.decode('ISO-8859-1'). 
encode('ascii',errors-'ignore').decode()) 
tar file.close() 
# Write to file 
1f not os.path.exists(save folder name): 
os.makedirs(save folder name) 
# Save files 
with open(pos file, "w") as pos file handler: 
pos file handler.write(''.join(pos data)) 
with open(neg file, "w") as neg file handler: 
neg file handler.write(''.join(neg data)) 
texts = pos data + neg data 
target = [1]*len(pos data) + [0]*len(neg data) 
return(texts, target) 
texts, target - load movie data() 
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词 ”， 代 码 如 下 : 


def normalize text(texts, stops): 

# Lower case 

texts - [x.lower() for x in texts] 

# Remove punctuation 

texts - [''.join(c for c in x if c not in string.punctuation) 
for x in texts] 

# Remove numbers 

texts = [''.join(c for c in x if c not in '0123456789') for x 
in texts] 

# Remove stopwords 

texts = [' '.join([word for word in x.split() if word not in 
(stops)]) for x in texts] 

# Trim extra whitespace 

texts = [' '.join(x.split()) for x in texts] 


return (texts) 
texts = normalize text(texts, stops) 


5. 为 了 确保 所 有 电影 影评 的 有 效 性 ， 我 们 将 检查 其 中 的 影评 长 度 。 可 以 强制 影评 长 度 为 三 个 单词 或 者 更 长 长 度 的 单词 ， 代 码 如 
F: 


target = [target[ix] for ix, x in enumerate(texts) if len(x. 
split()) > 2] 


texts = [x for x in texts if len(x.split()) > 2] 


6 构建 词汇 表 ， 创 建 函 数 来 建立 一 个 单词 字典 (该 单词 词典 是 单词 和 单词 数 对 ) 。 词 频 不 够 的 单词 ( 即 标记 为 unknown 的 单词 ) 
标记 为 RARE， 代 码 如 下 : 


def build dictionary(sentences, vocabulary size): 
4 Turn sentences (list of strings) into lists of words 
split sentences - [s.split() for s in sentences] 
words - [x for sublist in split sentences for x in sublist] 
# Initialize list of [word, word count] for each word, 


starting with unknown 
count = [['RARE', -1]] 


4 Now add most frequent words, limited to the N-most frequent 
(N-vocabulary size) 


count.extend(collections.Counter(words).most common(vocabulary _ 
size-1) ) 

# Now create the dictionary 

word dict = {} 

# For each word, that we want in the dictionary, add it, then 
make it the value of the prior dictionary length 


for word, word count in count: 
word dict[word] = len(word dict) 
return (word dict) 


7. 创 建 一 个 图 数 将 一 系列 的 句子 转化 成 单词 索引 列表 ， 并 将 单词 系 引 列表 传 入 侈 套 寻 找 函 数 ， 代 码 如 下 : 


def text to numbers(sentences, word dict): 
# Initialize the returned data 
data - [] 
for sentence in sentences: 
sentence data - [] 


# For each word, either use selected index or rare word 
index 


for word in sentence: 
if word in word dict: 
word ix - word dict [word] 
else: 
word ix = 0 
sentence data.append(word ix) 
data.append(sentence data) 
return (data) 


8. 创 建 单词 字典 ， 转 换 句子 列表 为 单词 索引 列表 ， 代 码 如 下 . 


word dictionary = build dictionary(texts, vocabulary size) 


word dictionary rev = dict(zip(word dictionary.values(), word 
dictionary.keys())) 


text data - text to numbers(texts, word dictionary) 
9. 从 预 处 理 的 单词 词典 中 ， 查 找 第 二 步 中 选择 的 验证 单词 的 索引 ， 代 码 如 下 : 


valid examples = [word dictionary[x] for x in valid words] 


10. 创 建 函 数 返 回 skip-gram 模 型 的 批量 数据 。 我 们 希望 在 单词 对 上 训练 模型 ， 该 单词 对 中 第 一 个 单词 为 训练 输入 “〈 即 窗口 中 央 的 
目标 单词 ) ; 另 一 个 单词 为 窗口 中 所 选 的 单词 。 例 如 ， 句 子 “the catin the hat" ， 如 果 in 为 目标 单词 ， 那 么 该 例句 的 上 下 文 窗口 大 
小 为 2 的 单词 对 (输入 单词 ， 输 出 单词 ) 为 : (the, in), (cat, in) , (the, in) , (hat, in) 。 有 具体 代码 如 下 : 


def generate batch data(sentences, batch size, window size, 
method='skip gram') : 


# Fill up data batch 


batch data [] 
label data [] 
while len(batch data) < batch size: 
# select random sentence to start 


rand sentence - np.random.choice(sentences) 

# Generate consecutive windows to look at 

window sequences = [rand sentence [max ( (1x-window _ 
Size) ,0):(ix+window size+1)] for ix, x in enumerate (rand _ 
sentence) ] 


# Denote which element of each window is the center word 
of interest 


label indices = [ix if ix«window size else window size for 
ix,x in enumerate (window sequences)] 


4 Pull out center word of interest for each window and 
create a tuple for each window 
if method--'skip gram': 
batch and labels = [(xly], xl:yl + x[(y+1):]) for x,y 
in zip(window sequences, label indices) ] 
# Make it in to a big list of tuples (target word, 
Surrounding word) 
tuple data = [(x, y_) for x,y in batch and labels for 
y in yl 
else: 
raise ValueError('Method {} not implmented 
yet.'.format (method) ) 


# extract batch and labels 
batch, labels = [list(x) for x in zip(*tuple data) ] 
batch data.extend(batch[:batch size] ) 
label data.extend(labels[:batch size] ) 
# Trim batch and label at the end 
batch data = batch data[:batch size] 
label data = label data[:batch size] 


# Convert to numpy array 
batch data - np.array(batch data) 
label data 


np.transpose(np.array([label datal)) 


return(batch data, label data) 


114] 95 CRE ES, FRBHIBIURHPRUBREEERPRERSA, TURBAT: 


embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0)) 

# Create data/target placeholders 

x inputs - tf.placeholder(tf.int32, shape-[batch size]) 

y target = tf.placeholder(tf.int32, shape-[batch size, 1]) 


valid dataset - tf.constant(valid examples, dtype-tf.int32) 


# Lookup the word embedding: 
embed = tf.nn.embedding lookup(embeddings, x inputs) 


12.softmax 损 失 了 为数 是 用 来 实现 多 类 分 类 | 


加 
E 
ai 

$ B 


9 损失 函数 ， 上 一 节 中 其 计算 预测 错误 单词 分 类 的 损失 。 因 为 本 例 中 目标 是 

10000 个 不 同 的 分 类 ， 所 以 会 导致 稀 蚊 性 非常 高 。 稀 足 性 会 导致 算法 模型 拟 合 或 者 收敛 的 问题 。 为 了 解决 该 问题 ， 我 们 使 用 噪声 对 比 
PARALLEL (noise-contrastive error, NCE) 。NCE 损 失 函 数 将 问题 转换 成 一 个 二 值 预测 ， 预 测 单词 分 类 和 随机 噪声 。num_sampled 
参数 控制 多 少 个 批量 转换 为 随机 噪声 。 具 体 代码 如 下 : 


nce weights = tf.Variable(tf.truncated normal([vocabulary size 
embedding size], stddev=1.0 / np.sqrt (embedding size))) 
nce biases = tf.Variable(tf.zeros([vocabulary size] ) ) 


loss = tf.reduce mean(tf.nn.nce loss(nce weights, 


nce biases, 
embed, 


y target, num sampled, vocabulary size) ) 


13. 创 建 函 数 寻 找 验 证 单词 周围 的 单词 。 我 们 将 计算 验证 单词 集 和 所 有 词 向 量 之 间 的 余弦 相似 度 ， 打 印 出 每 个 验证 单词 最 接近 的 单 
词 ， 代 人 码 如 下 : 


norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, 


keep 
dims=True) ) 


normalized embeddings = embeddings / norm 
valid_embeddings = 


tf.nn.embedding lookup (normalized embeddings, 
valid dataset) 


Similarity = tf.matmul (valid embeddings, normalized embeddings, 
transpose b=True) 


14. 声 明 优化 器 函数 ， 初 始 化 模型 变量 ， 代 码 如 下 : 


optimizer = tf.train.GradientDescentOptimizer(learning rate=1.0). 
minimize(loss) 


init - tf.initialize all variables() 
sess.run(init) 


IS JAHRE, FIED RASTER al Se AER VTA ial, (ASME: 


loss vec = [] 
loss x vec - [] 
for i in range (generations): 
batch inputs, batch labels - generate batch data(text data, 
batch size, window size) 
feed dict = {x inputs : batch inputs, y target : batch labels} 
# Run the train step 
sess.run(optimizer, feed dict-feed dict) 
# Return the loss 
if (1+1) $ print loss every == 0: 
loss val - sess.run(loss, feed dict-feed dict) 
loss vec.append(loss val) 
loss x vec.append(i+1) 
print ("Loss at step {} : {}".format(i+1, loss val)) 


# Validation: Print some random words and top 5 related words 
if (1+1) $ print valid every == 0: 

sim - sess.run(similarity, feed dict-feed dict) 

for j in range(len(valid words)): 


valid word = word dictionary rev[valid examples[jl] 


top k = 5 # number of nearest neighbors 
nearest = (-sim[j, :]).argsort() [1:top k+1] 
log str = "Nearest to {}:".format (valid word) 


for k in range(top k): 
close word = word dictionary rev[nearest[k]] 


log str = "$s %s," $ (log str, close word) 
print {lög SCE) 


16. 输 出 结果 如 下 : 


Loss at step 500 : 13.387781143188477 

Loss at step 1000 : 7.240757465362549 

Loss at step 49500 : 0.9395825862884521 

Loss at step 50000 : 0.30323168635368347 

Nearest to cliche: walk, intrigue, brim, eileen, dumber, 

Nearest to love: plight, fiction, complete, lady, bartleby, 
Nearest to hate: style, throws, players, fearlessness, astringent, 
Nearest to silly: delivers, meow, regain, nicely, anger, 

Nearest to sad: dizzying, variety, existing, environment, tunney, 


743 ”工作 原理 


在 电影 影评 文本 集 上 通过 skip-gram 方 法 训练 元 Word2Vec 模 型 。 下 载 数 据 集 ， 把 单词 转换 为 单词 了 字典， 并 使 用 系 引 数字 作为 认 
套 碍 找 。 最 后 训练 预测 每 个 单词 最 接近 的 单词 。 


TAA 延伸 学 习 


乍 一 看 ,我 们 期 望 的 验证 单词 集 最 接近 的 单词 是 同义词 。 但 是 这 种 情况 在 一 个 句子 中 是 不 常见 的 ， 因 为 一 个 句子 中 的 每 个 单词 周 
围 的 单词 都 很 少 出 现 同义词 。 我 们 得 到 的 是 数据 集中 每 个 单词 的 同义词 的 预测 。 


为 了 使 用 单词 谨 套 ， 我 们 必须 将 其 保存 和 重用 。 下 一 节 ， 我 们 将 实现 CBOW 词 嵌入 (BRE) 模型 。 


71.5 ”用 TensorFlow 实 现 CBOW 记 可 入 模型 
本 节 将 实现 word2Vec 的 CBOW 方 法 。 该 方法 和 skip-gram 方 法 相似 ， 有 一 点 不 同 的 是 给 一 个 上 下 文 相关 的 单词 集合 来 预测 目标 


Ein], 


75.1 开始 


f£. E—^ BW HB, 3x0. E RBA SFE mkm, fBIEXECBOWRSZ?rR, Sl HO. E PCO Rae 
WEE, NUETBiERE, WIÉQ-5Brm. 


Sentence: "tensorflow makes machine learning easy" 


Example vocab indices: [ 31, 15, 22, T, 3] 
Embedding Matrix 


row 1 0111-05... .. Word2vec: CBOW 
row 2 0.3 -0.1 025 ... 
— ree ni Consider the sample window: “makes machine learning” 
x " Target word: "machine"-22 
row 7 -0.2 0.1 0.15 ... 
7 7 Context window: “makes”=15, “learning”=7 
outs | ia - — Outputs 
15,7 22 
row 22 0.71802... 
Data Pairs( input , output  ): 
row 31 0.1 -0.7 0.1... N 
- " ( sum(embedding(7), embedding(15)), embedding(22) ) 
row N 07-01-15... 


Example with indices of [7, 3]: 02 12 015 u 
embedding([7, 3) = | 1207 -03.. 
A7-5 ”CBOW 模 型 如 何 谱 套数 据 的 描述 ， 其 中 两 边 窗口 大 小 各 为 1 
大 部 分 实现 代码 与 上 一 个 例子 相同 ， 有 一 点 不 同 的 是 如 何 创建 单词 启 套 和 如 何 从 句子 中 生成 启 套 数据 。 


为 了 让 代码 更 易 理解 ， 我 们 把 相关 的 主要 函数 移 到 一 个 单独 的 text_helpers.py 文 件 中 。 该 文件 包含 处 理 数据 加 载 函 数 、 文 本 归 一 
(CX. Pia) FPR URSA Sa E DEREN 


7.5.2 ”动手 做 
1. 导 入 必要 的 编程 库 ， 包 括 前 面 的 text_helpers.py 脚 本 ， 该 脚本 可 以 进行 文本 加 载 和 处 理 。 然 后 创建 一 个 计算 图 会 话 ， 代 码 如 


RB: 


import tensorflow as tf 
import matplotlib.pyplot as plt 
import numpy as np 
import random 

import os 

import pickle 

import string 

import requests 

import collections 
import 10 

import tarfile 


import urllib.request 

import text helpers 

from nltk.corpus import stopwords 
sess - tf.Session() 


2. 确 保 临 时 数据 和 参数 存储 在 文件 夹 中 ， 代 码 如 下 : 


# Make a saving directory if it doesn't exist 

data folder name - 'temp' 

if not os.path.exists(data folder name): 
os.makedirs(data folder name) 


3. 声 明 算 法 模型 的 参数 ， 这 些 参数 和 上 一 节 中 的 skip-gram 模 型 类 似 ， 代 码 如 下 : 


# Declare model parameters 
batch size - 500 

embedding size - 200 
vocabulary size - 2000 
generations = 50000 

model learning rate - 0.001 
num sampled - int(batch size/2 
window size - 3 

# Add checkpoints to training 
save embeddings every - 5000 
print valid every - 5000 
print loss every - 100 


# Declare stop words 


stops = stopwords.words('english' ) 
# We pick some test words. We are expecting synonyms to appear 
valid words = ['love', 'hate', 'happy', 'sad', 'man', 'woman!] 


4.J5] FH9S—2 PET AIRBASE EOC AO. EAI, REBEKA FEAA, (See: 


texts, target = text helpers.load movie data(data folder name) 
texts = text helpers.normalize text(texts, stops) 

4 Texts must contain at least 3 words 

target - [target[ix] for ix, x in enumerate(texts) if len(x. 
split()) » 2] 

texts = [x for x in texts if len(x.split()) > 2] 


5. 创 建 单 词 字典 ， 以 便 得 找 单词 。 同 时 ， 我 们 也 需要 一 个 逆序 单词 字典 ， 可 以 通过 索引 得 找 单词 。 当 我 们 想 打印 出 验证 单词 集中 
每 个 单词 最 近 的 单词 时 ， 可 使 用 逆序 单词 字典 ， 代 码 如 下 : 


word dictionary = text helpers.build dictionary(texts, 
vocabulary size) 

word dictionary rev - dict(zip(word dictionary.values(), word 
dictionary.keys())) 

text data - text helpers.text to numbers(texts, word dictionary) 
# Get validation word keys 

valid examples = [word dictionary[x] for x in valid words] 


6T a EHI LGB Bike Hae ARE Sia oe, OBAT: 


embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0)) 


# Create data/target placeholders 

x inputs - tf.placeholder(tf.int32, shape-[batch size, 
2*window size] ) 

y target = tf.placeholder(tf.int32, shape=[batch size, 1]) 
valid dataset - tf.constant(valid examples, dtype-tf.int32) 


T.AEIBERIBXE. A7ACBOWRA4 E TFAO AREE, PRAEMIA Side Ie 
起 ， 代 人 码 如 下 : 


# Lookup the word embeddings and 

4 Add together window embeddings: 

embed = tf.zeros([batch size, embedding sizel) 
for element in range(2*window size): 


embed += tf.nn.embedding lookup (embeddings, x inputs[:, 
element] ) 


8.{F8TensorFlowAs#HINCERARE, AAAGIRNIRIW ARAE, SEIsoftmaxeRqzillk sik tceCE—xEIRIRR, ASM: 


# NCE loss parameters 

nce weights = tf.Variable(tf.truncated normal ([vocabulary size, 
embedding size], stddev=1.0 / np.sqrt (embedding size) ) ) 

nce biases = tf.Variable(tf.zeros([vocabulary size])) 

# Declare loss function (NCE) 


loss = tf.reduce mean(tf.nn.nce loss(nce weights, nce biases, 
embed, 


y target, num sampled, vocabulary size)) 


9. 如 上 一 书 中 的 skip-gram 模 型 一 样 ， 我 们 使 用 余弦 相似 度 来 度量 验证 单词 集中 每 个 单词 最 接近 的 单词 ， 代 码 如 下 : 


norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, keep 
dims=True) ) 


normalized embeddings = embeddings / norm 


valid embeddings = tf.nn.embedding lookup (normalized embeddings, 
valid dataset) 


Similarity = tf.matmul (valid embeddings, normalized embeddings, 
transpose b=True) 


10. 为 了 保存 词 向 量 ， 我 们 需要 加 载 TensorFlow 的 train.S9aver () Biz. BHZAASRFE MISS, (BBA PRIS 
中 定 参 数 只 保存 座 套 变量 ， 并 设置 名 字 。 这 里 设置 保存 的 名 字 与 计算 图 中 的 变量 名 相同 ， 代 码 如 下 : 


saver = tfi.train.Saver({"embeddings": embeddings]) 


11. 现 在 声明 优化 器 销 数 ， 初 始 化 模型 变量 ， 代 码 如 下 : 


optimizer = tf.train.GradientDescentOptimizer(learning rate-model 
learning rate).minimize(loss) 


init - tf.initialize all variables() 


sess.run(init) 


12.806, WIAA, TIEDPUABEEX, UReCESRiSHRESUEEXÓX, (SMR: 


loss vec = [] 
loss x vec - [] 
for i in range (generations): 


batch inputs, batch labels - text helpers.generate batch 
data(text data, batch size, window size, method='cbow' ) 


feed dict = {x inputs : batch inputs, y target : batch labels} 
# Run the train step 
sess.run(optimizer, feed dict-feed dict) 


# Return the loss 


if (i*1) $ print loss every == 0: 
loss val = sess.run(loss, feed dict=feed dict) 


loss vec.append(loss val) 
loss x vec.append (1i+1) 
print('Loss at step {} : {}'.format(i+1, loss val)) 


# Validation: Print some random words and top 5 related words 
if (i+1) $ print valid every == 
sim - sess.run(similarity, feed dict-feed dict) 
for j in range(len(valid words)): 
valid word = word dictionary rev[valid examples[jl] 
top k = 5 # number of nearest neighbors 
nearest = (-sim[j, :1).argsort()[1:top k-«1| 
log str = "Nearest to {}:".format (valid word) 
for k in range(top k): 
close word = word dictionary rev[nearest [k] ] 
print str = '{} (j,'.format(log str, close word) 
print (print str) 


# Save dictionary + embeddings 
if (1+1) $ save embeddings every == 0: 
# Save vocabulary dictionary 
with open(os.path.join(data folder name, 'movie vocab. 
pkl'), 'wb') as f: 
pickle.dump(word dictionary, f) 


# Save embeddings 


model checkpoint path = os.path.join(os.getcwd(),data 
folder name,'cbow movie embeddings.ckpt') 


save path - saver.save(sess, model checkpoint path) 
print('Model saved in file: {}'.format (save path)) 


13. 输 出 结果 如 下 : 


Loss at step 100 : 62.04829025268555 

Loss at step 200 : 33.182334899902344 

Loss at step 49900 : 1.6794960498809814 

Loss at step 50000 : 1.5071022510528564 

Nearest to love: clarity, cult, cliched, literary, memory, 


Nearest to hate: bringing, gifted, almost, next, wish, 
Nearest to happy: ensemble, fall, courage, uneven, girls, 
Nearest to sad: santa, devoid, biopic, genuinely, becomes, 
Nearest to man: project, stands, none, soul, away, 

Nearest to woman: crush, even, x, team, ensemble, 

Model saved in file: .../temp/cbow movie embeddings.ckpt 


14.text helpers.py 脚 本 中 最 后 一 个 函数 是 上 一 节 的 generate batch data () 函数 ， 这 里 稍微 修改 一 下 ， 增 加 一 个 cbow 方 法 ， 
代码 如 下 : 


elif method=='cbow': 


batch and labels = [(xl:yl] + xI[(y+1):], xly]) for x,y in 
zip(window sequences, label indices) ] 


# Only keep windows with consistent 2*window size 


batch and labels = [(x,y) for x,y in batch and labels if 
len (x) ==2*window size] 


batch, labels = [list(x) for x in zip(*batch and labels) ] 


7.5.3 ”工作 原理 


在 本 节 中 ，Word2Vec 谍 套 的 CBOW 模 型 和 skip-gram 模 型 非常 相似 。 主 要 的 不 同 点 是 生成 数据 和 单词 巷 套 的 处 理 。 


本 书 我 们 加 载 文 本 数据 ， 归 一 化 文本 ,创建 词汇 字典 ， 使 用 词汇 字典 查找 蔚 套 ， 组 合 藤 套 并 训练 神经 网 络 模 型 预测 目标 单词 。 


7.5.4 JERZY 


值得 注意 的 是 ，CBOW/ 方 法 是 在 上 下 文 窗口 内 单词 瞪 套 晋 加 上 进行 训练 并 预测 目标 单词 的 。Word2Vec 的 CBOW 方 法 更 平滑 ， 更 
适用 于 小 文本 数据 集 。 


7.6 使 用 TensorFlow 的 Word2Vec 预 测 


本 节 将 使 用 前 面 学 过 的 单词 岩 套 策略 进行 分 类 。 


7.6.1 开始 


现在 已 经 创建 并 保 仓 了 CBOW 单 词 骨 套 ， 我 们 使 用 它们 在 电影 影评 数据 集 上 做 情感 分 析 。 本 证 将 介绍 如 何 加 载 和 使 用 预 训 练 的 髓 
套 ， 并 使 用 这 些 单词 家 套 进行 情感 分 析 ， 通 过 训练 线性 逻辑 回归 模型 来 预测 电影 的 好 坏 。 


情感 分 析 是 一 个 相当 未 手 的 任务 ， 因 为 很 难 捕捉 到 人 类 语言 真实 合 义 的 微妙 变化 和 细微 区 别 。 挖 吾 、 玩 关 和 模 校 两 可 的 含义 使 得 
异 单 艰难 。 我 们 将 创建 一 个 线性 逻辑 回归 模型 训练 电影 影评 数据 集 ， 来 看 是 否 可 以 得 到 上 一 节 CBOW 模 型 葵 套 之 外 的 信息 。 因 为 
天 注 的 是 加 载 和 使 用 预 训练 好 的 单词 能 套 ， 所 以 这 里 尽量 不 使 用 复杂 算法 模型 。 


任务 
节 


本 


7.6.2 mE 


1. 导 入 必要 的 编程 库 和 计算 图 会 话 ， 代 码 如 下 : 


import tensorflow as tf 

import matplotlib.pyplot as plt 
import numpy as np 

import random 

import os 

import pickle 

import string 

import requests 

import collections 

import io 

import tarfile 

import urllib.request 

import text helpers 

from nltk.corpus import stopwords 
sess = tf.Session() 


2 aI ARLHS, HER, MSR PCBOWAIARINREAN, (SRR: 


embedding size = 200 


vocabulary size = 2000 

batch size = 100 

max words = 100 

stops = stopwords.words('english' ) 


3. 用 text_helpers.py 脚 本 加 载 和 转换 文本 数据 集 ， 代 码 如 下 : 


data folder name = 'temp' 

texts, target - text helpers.load movie data(data folder name) 
# Normalize text 

print ('Normalizing Text Data') 


texts = text helpers.normalize text (texts, stops) 

# Texts must contain at least 3 words 

target = [target[ix] for ix, x in enumerate(texts) if len(x. 
Splrti)) s» 21 

texts = [x for x in texts if len(x.split()) > 2] 

train indices - np.random.choice(len(target), 
round(0.8*len(target)), replace-False) 

test indices - np.array(list(set(range(len(target))) - set(train 
indices))) " 
texts train - [x for ix, x in enumerate(texts) if ix in train 
indices] i 
texts test - [x for ix, x in enumerate(texts) if ix in test 
indices] i 


target train - np.array([x for ix, x in enumerate(target) if ix in 
train indices]) 
target test = np.array([x for ix, x in enumerate(target) if ix in 
test indices]) 


A DMEM CBOWRE TAFE, MSTA SRA Rid ele 5 AYERS, ORAT: 


dict file = os.path.join(data folder name, 'movie vocab.pkl') 
word dictionary = pickle.load(open(dict file, 'rb')) 


5. 通 过 单词 字典 将 加 载 的 句子 转化 为 数值 型 numpy 数 组 ， 代 码 如 下 : 


text data train = np.array(text helpers.text to numbers(texts 
train, word dictionary)) 


text data test = np.array(text helpers.text to numbers(texts test, 
word dictionary)) 


6. 由 于 电影 影评 长 度 不 一 ， 我 们 用 同一 长 度 ( 设 为 100 个 单词 长 度 ) 将 其 标准 化 。 如 果 电 影 影评 长 度 少 于 100 个 单词 ， 我 们 将 用 0 
去 填充 ， 代 码 如 下 : 


text data train = np.array([x[0:max words] for x in [y-«[0]*max 
words for y in text data trainl]) 

text data test = np.array([x[0:max words] for x in [y«[0]*max 
words for y in text data test]l) 


T.PRBRSZSRIBIUHBS SR SE ERU oes, ASME: 


A tf.Variable(tf.random normal (shape= [embedding size,1])) 
b tf.Variable(tf.random normal (shape=[1,1] ) ) 

# Initialize placeholders 
x 

| 


data - tf.placeholder(shape-[None, max words], dtype-tf.int32) 
target - tf.placeholder(shape-[None, 1], dtype-tf.float32) 


8.73 f fs&íSTensorFlownJ LAS RgUIIZ ise] ER, BRATAN AERE. IXEBOURS— ECESRE, EUEAAGEHEND 
ARE, MASUR: 


embeddings = tf.Variable(tf.random_uniform( [vocabulary size, 
embedding size], -1.0, 1.0)) 


ATTRA PMARES EF, TROS PARE, RUT: 


embed = tf.nn.embedding lookup(embeddings, x data) 
# Take average of all word embeddings in documents 
embed avg = tf.reduce mean(embed, 1) 


10.FSBBESRIERCFRUERACEREM. ICE, RRAPO T sigmoidiefE, (OBAT: 


model output = tf.add(tf.matmul(embed avg, A), b) 
# Declare loss function (Cross Entropy loss) 


loss - tf.reduce mean(tf.nn.sigmoid cross entropy with 
logits (model output, y target) ) 


11.68: SEPSIS EHE, PEERS, TUIBRTT: 


prediction - tf.round(tf.sigmoid(model output)) 

predictions correct - tf.cast(tf.equal(prediction, y target), 
tf.float32) 

accuracy - tf.reduce mean(predictions correct) 


12. 声 明 优化 器 函数 ， 并 初始 化 下 面 的 模型 变量 ,代码 如 下 : 


my opt = tf.train.AdagradOptimizer (0.005) 
train step - my opt.minimize(loss) 

init - tf.initialize all variables() 
sess.run(init) 


13. 随 机 初始 化 单词 嵌 套 后 ， 调 用 Saver 方 法 来 加 载 上 一 书 中 保存 好 的 CBOW 馈 套 到 柑 套 变量 ,代码 如 下 : 


model checkpoint path = os.path.join(data folder name,'cbow movie 
embeddings.ckpt') 


saver = tf.train.Saver({"embeddings": embeddings } ) 
Saver.restore(sess, model checkpoint path) 


14. 开 始 迭 代 训 练 。 注 意 ， 每 迭代 100 次 区 保存 训练 集 和 测试 集 的 损失 和 准确 度 。 每 迭代 500 次 殴打 印 一 次 模型 状态 ， 代 码 如 下 : 


train loss = [] 
test loss - [] 
train acc - [] 
test acc - [] 

i data = [] 


for i in range(10000): 


rand index = np.random.choice(text data train.shapel[0], 
size-batch size) 


rand x - text data train[rand index] 
rand y = np.transpose([target train[rand index] ] ) 


sess.run(train step, feed dict={x data: rand x, y target: 
rand y]) 


# Only record loss and accuracy every 100 generations 
if (i+1)%100==0: 
i data.append(i+1) 
train loss temp = sess.run(loss, feed dict={x data: 
rand x, y target: rand y}) 
train loss.append(train loss temp) 


test loss temp - sess.run(loss, feed dict-(x data: text 
data test, y target: np.transpose([target test])]) 


test loss.append(test loss temp) 


train acc temp = sess.run(accuracy, feed dict={x data: 
rand x, y target: rand yj) 

train acc.append(train acc temp) 

test acc temp = sess.run(accuracy, feed dict={x data: 
text data test, y target: np.transpose([target test])]) 

test acc.append(test acc temp) 

if (1+1)%500==0: 

acc and loss = [1+1, train loss temp, test loss temp, 
train acc temp, test acc temp] 

acc and loss - [np.round(x,2) for x in acc and loss] 

print('Generation 4 {}. Train Loss (Test Loss): {:.2£} 
({:.2£}). Train Acc (Test Acc): (:.2f] ((:.2£])'.format(*acc and 
loss)) 


15. 打 ED 结果 如 下 : 


Generation d 500. Train Loss (Test Loss): 0.70 (0.71). Train Acc 
(Test Acc): 0.52 (0.48) 


Generation # 1000. Train Loss (Test Loss): 0.69 (0.72). Train Acc 
(Test Acc): 0.56 (0.47) 


Generation d 9500. Train Loss (Test Loss): 0.69 (0.70). Train Acc 


(Test Acc): 0.57 (0.55) 
Generation # 10000. Train Loss (Test Loss): 0.70 (0.70). Train Acc 


(Test Acc): 0.59 (0.55) 


16.22 180 ERU SE FRA RS ERAS, PRERE -64067-7 : 


# Plot loss over time 

plt.plot(i data, train loss, 'k-', label-'Train Loss!) 

plt.plot(i data, test loss, 'r--', label='Test Loss', linewidth-4) 
plt.title('Cross Entropy Loss per Generation!) 

plt.xlabel ('Generation' ) 

plt.ylabel('Cross Entropy Loss') 

plt.legend(loc='upper right') 


plt .show () 

# Plot train and test accuracy 

plt.plot(i data, train acc, 'k-', label='Train Set Accuracy' ) 
plt.plet (1 data, test acc, 'r--', label="Tést Set Accuracy", 


linewidth=4) 

plt.title('Train and Test Accuracy!) 
plt.xlabel ('Generation' ) 

plt.ylabel ('Accuracy' ) 
plt.legend(loc='lower right') 
plt.show() 


Cross Entropy Loss per Generation 
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图 7-7” 迁 代 10000 次 的 训练 集 准 确 度 和 测试 集 准确 度 趋势 图 ， 两 者 准确 度 均 在 缓慢 提高 。 值 得 注意 的 是 ， 该 模型 性 能 较 差 ， 仅 仅 比 随 


机 预测 好 那么 一 点 点 


7.6(3 ”工作 原理 


我 们 加 载 前 一 节 的 CBOW 钨 套 ， 并 在 电影 影评 的 平均 秦 套 上 进行 逻辑 回归 模型 训练 。 本 节 的 天 注 点 是 ， 如 何 从 磁盘 上 加 载 模型 变 
量 到 已 经 初始 化 的 当前 模型 变量 中 ， 以 及 如 何 存储 和 加 载 其 他 单词 字典 来 训练 瞩 套 。 当 使 用 相同 的 单词 能 套 时 ， 需 要 使 用 相同 的 单词 


SIRE: RS [AYERS 


7.64 延伸 学 习 
我 们 获得 了 60% 的 情感 预测 准确 度 。 例 如 ， 预 知 单词 great 背 后 的 含义 是 一 件 非常 困难 的 任务 ， 该 单词 可 以 用 在 正面 或 者 负面 的 电 


影 影 评 中 。 
青 感 分 析 问 题 。 


为 了 解决 该 问题 ， 我 们 计划 使 用 文档 本 身 创建 嵌 套 来 解决 情感 问题 。 我 们 可 以 利用 Doc2Vec 来 解决 情感 


== RE 


7.7 用 TensorFlow 实 现 基 于 Doc2Vec 的 情感 分 析 
现在 知道 如 何 训练 单词 谋 套 了 ， 我 们 可 以 扩展 这 些 方法 使 其 成 为 文档 嵌 套 。 本 节 将 使 用 TensorFlow 实 现 基于 Doc2Vec 的 情感 分 


析 。 


7.7.1 开始 
人 在 上 一 节 关 于 Word2Vec 的 方法 中 ， 我 们 处 理 的 是 单词 之 间 的 上 下 文 关系 。 但 是 没有 考虑 单词 和 单词 所 在 文档 之 间 的 关系 。 


Word2Vec 方 法 的 扩展 之 一 束 是 Doc2Vec 方 法 ， 其 考虑 文档 的 影响 。 
Doc2Vec 方 法 的 基本 思想 是 引入 文档 贾 套 ， 同 时 连同 单词 说 套 一 起 帮助 判断 文档 的 感情 色彩 。 例 如 ， 如 果 单 词 movie 和 love 接 连 
出 现 ， 那 也 不 能 帮助 我 们 判断 该 电影 影评 的 情感 。 影 评 可 能 谈论 他 们 如 何 喜 爱 电 影 ， 也 可 能 谈论 他 们 如 何 讨 厌 电影。 但 是 ， 如 果 电 影 
影评 有 足够 的 长 度 ， 并 且 包 含 多 个 负面 词汇 ， 那 么 文档 整体 的 感情 色彩 可 以 帮助 我 们 预测 最 近 的 单词 。 
Doc2Ve<c 方 法 只 是 简单 地 增加 了 一 个 文档 仍 套 矩阵， 并 使 用 单词 的 窗口 乘 以 文档 索引 进行 单词 预 则 。 在 一 个 文档 中 的 所 有 单词 窗 
文档 从 套 和 单词 仍 套 是 讨论 重点 。 我 们 将 单词 窗口 内 的 单词 腐 套 求 和 ， 主 要 有 两 种 结 


口 有 相同 的 文档 系 引 。 值 得 一 提 的 是 ， 如 何 结合 

合 这 些 日 词 同 套 和 文档 嵌 套 的 方法 。 一 般 将 文档 嵌 套 和 单词 岩 套 相 加 ， 或 者 将 文档 启 套 直接 追加 在 单词 骨 套 后 面 。 如 果 将 两 种 垦 套 相 
DN, PAB RSCSREWAI MIR REAVER, 如 果 将 两 种 认 套 直接 追加 ， 那 么 需要 增加 逻辑 回归 模型 的 变量 数量 。 本 蔬 我 们 将 
讲解 如 何 处 理 连接 两 种 藤 套 。 不 过 一 般 来 讲 ， 对 于 小 数据 集 ， 两 种 谋 套 相 加 的 方法 是 更 好 的 选择 。 

站 先进 行 电影 影评 的 文档 柑 套 和 单词 骨 套 ， 然 后 分 割 为 训练 集 和 测试 集 ， 训 练 歇 辑 回 归 模 型 ， 并 评估 该 方法 是 否 可 以 提高 预测 影 


评 情感 的 准确 度 。 


7.7.2 动手 做 


1. 导 入 必要 的 编程 库 ， 开 始 一 个 计算 图 会 语 ， 代 码 如 下 : 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


tensorflow as tf 
matplotlib.pyplot as plt 
numpy as np 
random 

OS 

pickle 

string 

requests 
collections 

io 

tarfile 
urllib.request 
Lext helpers 


from nltk.corpus import stopwords 


sess = 


tf.Session() 


2. 加 载 影评 数据 集 ， 代 码 如 下 : 


data folder name = 


'temp' 


if not os.path.exists(data folder name): 
os.makedirs(data folder name) 
texts, target z 


3. 声 明 算 法 模型 参数 ， 代 码 如 下 : 


text helpers.load movie data(data folder name) 


batch size = 500 

vocabulary size - 7500 

generations - 100000 

model learning rate - 0.001 

embedding size - 200 # Word embedding size 

doc embedding size - 100 # Document embedding size 


concatenated size = embedding size + doc embedding size 

num sampled = int (batch size/2) 

window size - 3 # How many words to consider to the left. 
# Add checkpoints to training 

save embeddings every - 5000 


print valid every - 5000 

print loss every - 100 

# Declare stop words 

stops = stopwords.words('english' ) 

# We pick a few test words. 

valid words = ['love', 'hate', 'happy', 'sad', 'man', 'woman!] 


4. 归 一 化 电影 影评 ， 确 保 每 条 影评 都 大 于 指定 的 窗口 大 小 ， 代 码 如 下 : 


texts = text helpers.normalize text(texts, stops) 

4 Texts must contain at least as much as the prior window size 
target - [target[ix] for ix, x in enumerate(texts) if len(x. 
split ()) 

» window size] 

texts = [x for x in texts if len(x.split()) > window size] 
assert(len(target)--len(texts)) 


5. 创 建 单词 字典 。 值 得 注意 的 是 ,我 们 无 须 创 建文 档 字典 。 文 档 索 引 仪 仪 是 文档 的 索引 值 ， 每 个 文档 有 唯一 的 索引 值 ， 代 码 如 
F: 


word dictionary = text helpers.build dictionary (texts, vocabulary _ 
size) 

word dictionary rev = dict(zip(word dictionary .values(), word 
dictionary .keys())) 

text data = text helpers.text to numbers (texts, word dictionary) 

# Get validation word keys 

valid examples = [word dictionary[x] for x in valid words] 


6. XE M PREM MRE. AnA XERRA ARR, TSMR: 


embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0)) 

doc embeddings - tf.Variable(tf.random uniform([len(texts), doc 
embedding size], -1.0, 1.0)) 

# NCE loss parameters 


nce weights = tf.Variable(tf.truncated normal ([vocabulary size, 
concatenated size], 


stddev=1.0 / 
np.sqrt (concatenated size) ) ) 


nce biases = tf.Variable(tf.zeros([vocabulary sizel)) 


7. 声 明 Doc2Vec 系 引 和 目标 单词 率 引 的 占 位 待 。 注 意 ， 输 入 索引 的 大 小 是 窗口 大 小 加 1， 这 是 因为 每 个 生成 的 数据 窗口 将 有 一 个 额 
外 的 文档 索引 ， 代 码 如 下 : 


x inputs = tf.placeholder(tf.int32, shape-[None, window size + 1]) 
y target - tf.placeholder(tf.int32, shape-[None, 1]) 
valid dataset - tf.constant(valid examples, dtype-tf.int32) 


8. ARERR EK, PAEXEBOXEdERE, TURBAT: 


embed = tf.zeros([batch size, embedding size] ) 
for element in range (window size): 


embed += tf.nn.embedding lookup (embeddings, x inputs[:, 
element] ) 


doc indices = tf.slice(x inputs, [0,window size], [batch size,11) 
doc embed = tf.nn.embedding lookup (doc embeddings,doc indices) 

# concatenate embeddings 

final embed = tf.concat(1, [embed, tf.squeeze(doc embed) ] ) 


9.BUEPSBHIRSACERESUTGUEEUUM SR, MARR: 


loss = tf.reduce mean(tf.nn.nce loss(nce weights, nce biases, 
final embed, y target, num sampled, vocabulary size)) 


# Create optimizer 
optimizer = 

tf.train.GradientDescentOptimizer (learning rate=model learning 
rate) i i i 
train step - optimizer.minimize(loss) 


10 声明 验证 单词 集 的 余弦 距离 ， 代 码 如 下 ; 


norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, 

keep dims-True)) 

normalized embeddings - embeddings / norm 

valid embeddings = tf.nn.embedding lookup (normalized embeddings, 
valid dataset) 

Similarity = tf£.matmul (valid embeddings, normalized embeddings, 
transpose b=True) 


11. 为 了 保存 馈 侠 ,创建 模型 的 saver 函 数 ， 然 后 初始 化 模型 变量 ,代码 如 下 : 


saver = tf.train.Saver({"embeddings": embeddings, "doc 
embeddings": 


doc embeddings]) 
init - tf.initialize all variables() 
sess.run(init) 


lest 

loss vec = [] 

loss x vec - [] 

for i in range (generations): 


batch inputs, batch labels - text helpers.generate batch 
data(text data, batch size, 


window size, method='doc2vec' ) 
feed dict - (x inputs : batch inputs, y target : batch labels] 


# Run the train step 
sess.run(train step, feed dict-feed dict) 


# Return the loss 


if (1+1) $ print loss every == 0: 
loss val - sess.run(loss, feed dict-feed dict) 


loss vec.append(loss val) 
loss x vec.append (1+1) 
print ('Loss at step {} : {}'.format(i+1, loss val) ) 


# Validation: Print some random words and top 5 related words 


if (1+1) % print valid every == 0: 
sim = sess.run(similarity, feed dict-feed dict) 
for j in range(len(valid words) ): 


valid word = word dictionary rev[valid_ examples [j]] 


top k = 5 # number of nearest neighbors 
nearest = (-sim[j, :]).argsort() [1:top_ k+1] 
log str = "Nearest to {}:".format (valid word) 
for k in range(top k): 
close word = word dictionary rev[nearest[k]l] 
log str = '{} [(j,'.format(log str, close word) 
print(log str) 


# Save dictionary + embeddings 
if (1+1) $ save _ embeddings every == 0: 
# Save vocabulary dictionary 
with open(os.path.join(data folder name, 'movie vocab. 
pkl'), 'wb') as f: 
pickle.dump (word dictionary, f) 


# Save embeddings 


model checkpoint path = os.path.join(os.getcwd(),data 
folder name,'doc2vec movie embeddings.ckpt') 


save path - saver.save(sess, model checkpoint path) 
print('Model saved in file: {}'.format (save path)) 


12. 打 ED 结果 如 下 : 


Loss at step 100 : 126.176816940307617 

Loss at step 200 : 89.608322143554688 

Loss at step 99900 : 17.733346939086914 

Loss at step 100000 : 17.384489059448242 

Nearest to love: ride, with, by, its, start, 

Nearest to hate: redundant, snapshot, from, performances, 
extravagant, 

Nearest to happy: queen, chaos, them, succumb, elegance, 
Nearest to sad: terms, pity, chord, wallet, morality, 
Nearest to man: of, teen, an, our, physical, 

Nearest to woman: innocuous, scenes, prove, except, lady, 
Model saved in file: /.../temp/doc2vec movie embeddings.ckpt 


133JllZ&zeDoc2VeciBx E, 3kliJ8e e Fixe EIER eee, URFA REK. Aorem, (Vn 
如 下 : 


max words = 20 # maximum review word length 
logistic batch size = 500 # training batch size 


14 .分割 数 据 集 为 训练 集 和 测试 集 ， 代 码 如 下 


train indices = np.sort(np.random.choice(len(target), 
round(0.8*len(target)), replace-False)) 

test indices = np.sort (np.array (list (set (range (len (target))) - 
set (train indices)))) 


texts train = [x for ix, x in enumerate (texts) if ix in train 
indices] 

texts test - [x for ix, x in enumerate(texts) if ix in test 
indices] 


target train - np.array([x for ix, x in enumerate(target) if ix in 
train indices]) 
target test - np.array([x for ix, x in enumerate(target) if ix in 
test indices]) 


15 AGF RFR ARAURA], IBTBBNESXSUREREAE/J2OT SRI, (SMR: 


text data train = np.array(text helpers.text to numbers(texts 
train, 

word dictionary)) 

text data test - np.array(text helpers.text to numbers(texts test, 
word dictionary)) 

# Pad/crop movie reviews to specific length 

text data train = np.array([x[0:max words] for x in [y-«[0]*max 
words 

for y in text data train]l) 

text data test = np.array([x[0:max words] for x in [y-«[0]*max 
words 

for y in text data testl]l) 


16 RAS SEARS hu. tease TRUURRETRUERACEREN, TSE: 


# Define Logistic placeholders 
log x inputs = tf.placeholder(tf.int32, shape=[None, max words + 


1] ) 
log y target = tf.placeholder(tf.int32, shape=[None, 1] ) 


A = tf.Variable(tf.random normal (shape= [concatenated _size,1])) 
b tf.Variable(tf.random normal (shape=[1,1]) ) 


# Declare logistic model (sigmoid in loss function) 
model output = tf.add(tf.matmul (log final embed, A), b) 


# Declare loss function (Cross Entropy loss) 

logistic loss = tf.reduce mean(tf.nn.sigmoid cross entropy with _ 
logits (model output, 

tf.cast(log y target, tf.float32))) 


17.815875 9 ARERR. BUSERBA BI MRE Ree T ER] AFM FRA ERR), EB ERME, ^ 
同 的 是 训练 20 个 单词 的 影评 ， 代 码 如 下 : 


# Add together element embeddings in window: 
log embed = tf.zeros([logistic batch size, embedding size]) 
for element in range (max words): 

log embed += tf.nn.embedding lookup(embeddings, log x 
inputs[:, element]) 
log doc indices = tf.slice(log x inputs, [0,max words],[logistic _ 
batch size,1]) 
log doc embed - tf.nn.embedding lookup(doc embeddings,log doc 
indices) 
# concatenate embeddings 


log final embed = tf.concat(1, [log embed, tf.squeeze(log doc 
embed) ] ) 


18. SIRE, FARAR, AAE, Miata ss, SWE: 


prediction = tf.round(tf.sigmoid(model output) ) 

predictions correct = tf.cast(tf.equal (prediction, tf.cast(log y | 
target, tf.float32)), tf.fl10oat32) 

accuracy = tf.reduce mean(predictions correct) 

# Declare optimizer 


logistic opt = tf.train.GradientDescentOptimizer (learning _ 
rate=0.01) 
logistic train step = logistic opt.minimize(logistic loss, var 


list=[A, bl) 

# Intitialize Variables 

init = tf.initialize all variables() 
sess.run(init) 


19. 开 始 训练 逻辑 回归 模型 ， 代 码 如 下 : 


train loss = [] 


test loss = [] 
train acc = [] 
test acc = [] 


i data = [|] 
for i in range(10000): 

rand index = np.random.choice(text data train.shape[0], 
size=logistic batch size) 

rand x - text data train[rand index] 

# Append review index at the end of text data 

rand x doc indices - train indices[rand index] 

rand x - np.hstack((rand x, np.transpose([rand x doc 
indices]))) 

rand y = np.transpose([target train[rand index] ] ) 


feed dict = {log x inputs : rand x, log y target : rand yj 
sess.run(logistic train step, feed dict-feed dict) 


# Only record loss and accuracy every 100 generations 
if (1+1)%100==0: 
rand index test - np.random.choice(text data test. 
shape[0], size-logistic batch size) 
rand x test = text data test[rand index test] 


# Append review index at the end of text data 

rand x doc indices test - test indices[rand index test] 

rand x test - np.hstack((rand x test, 
np.transpose([rand x doc indices test]))) 

rand y test = np.transpose([target test[rand index test] ] ) 


test feed dict = {log x inputs: rand x test, log y target: 
rand y test} 


i data.append (1i+1) 


train loss temp = sess.run(logistic loss, feed dict=feed_ 
dict) 

train loss.append(train loss temp) 

test loss temp = sess.run(logistic loss, feed dict=test _ 
feed dict) 

test loss.append(test loss temp) 

train acc temp = sess.run(accuracy, feed dict=feed dict) 

train acc.append(train acc temp) 

test acc temp - sess.run(accuracy, feed dict-test feed 
dict) 

test acc.append(test acc temp) 

if (1+1)%500==0: 

acc and loss = [i«1, train loss temp, test loss temp, 
train acc temp, test acc temp] 

acc and loss - [np.round(x,2) for x in acc and 1oss] 

print('Generation # {}. Train Loss (Test Loss): {:.2f} 


((:.2£]). Train Acc (Test Acc): {:.2f} ((:.2£])'.format(*acc and 
loss)) 


20. 打 印 结果 如 下 : 


Generation # 500. Train Loss (Test Loss): 5.62 (7.45). Train Acc 
(Test Acc): 0.52 (0.48) 


Generation # 10000. Train Loss (Test Loss): 2.35 (2.51). Train Acc 
(Test Acc): 0.59 (0.58) 


21. 我 们 已 经 创建 了 独立 的 批量 数据 生成 的 方法 
Doc2Vech E, RUT: 


text helpers.generate batch data () 函数 。 本 节 前 面 使 用 该 方法 训练 


def generate batch data(sentences, batch size, window size, 
method-'skip gram'): 
4 Fill up data batch 
batch data = [] 
label data = [] 
while len(batch data) < batch size: 
# select random sentence to start 
rand sentence ix = int(np.random.choice(len(sentences), 
$1ze=1) ) 
rand sentence = sentences [rand sentence 1x] 
# Generate consecutive windows to look at 
window sequences = [rand sentence [max ( (1x-window _ 
Size) ,0): (1x+window_size+1)] for ix, x in enumerate (rand _ 
sentence) ] 
# Denote which element of each window is the center word 


f interest 
label indices - [ix if ix«window size else window size for 
ix,x in enumerate(window sequences)] 


# Pull out center word of interest for each window and 
create a tuple for each window 
if method--'skip gram': 


elif method=='cbow': 


elif method=='doc2vec': 
# For doc2vec we keep LHS window only to predict 
target word 
batch and labels = [(rand sentence[i:i-«window size], 
rand sentence [i+window size]) for i in range(0, len(rand 
sentence)-window size)] 


batch, labels - [list(x) for x in zip(*batch and 
labels)] 


# Add document index to batch!! Remember that we must 
extract the last index in batch for the doc-index 


batch = [x + [rand sentence ix] for x in batch] 
else: 


raise ValueError('Method {} not implmented 
yet.'.format (method) ) 


# extract batch and labels 
batch data.extend(batch[:batch size] ) 
label data.extend(labels[:batch size] ) 
# Trim batch and label at the end 
batch data = batch data[:batch size] 
label data = label data[:batch size] 


# Convert to numpy array 
batch data = np.array (batch data) 


label data = np.transpose(np.array([label data] ) ) 


return(batch data, label data) 


7.7.3 工作 原理 


在 本 节 中 ， 我 们 进行 了 两 个 迭代 训练 。 第 一 个 是 训练 Doc2Vec 邮 套 ， 第 二 个 是 在 电影 影评 上 训练 逻辑 回归 模型 预测 影评 情感 色 


虽然 情感 分 析 预 测 的 准确 度 没 有 增加 多 少 (052829736096) ， 但 是 我 们 成 功 实 现 了 电影 影评 数据 集 的 Doc2Vec 的 连接 (级 联 ) 版 
本 。 因 为 逻辑 回归 模型 不 能 捕捉 到 目 然 语言 处 理 中 的 非 线性 行为 特征 ， 所 以 为 了 提高 预测 的 准确 度 ， 我 们 可 以 尝试 用 不 同 的 参数 训练 


Doc2Vec 扔 套 ， 也 可 以 使 用 稍微 复杂 一 些 的 算法 模型 。 


Bom BRAHAM 


在 过 去 的 几 年 中 ， 卷 积 神经 网 络 (Convolutional Neural Networks, CNN) 在 图 像 识 别 方面 有 了 重大 突破 。 本 章 主要 包含 以 下 
知识 点 : 


: TensotFlow 实 现 简 单 的 CNN 

- TensotFlow È Jt, 3t Brag CNN 

> 再 训练 已 有 的 CNN 模 型 

: TensorFlow 实 现 模仿 大 师 绘 画 (Neuralstyle) 
: TensorFlow 实 现 DeepDream 


值得 注意 的 是 ， 读 者 可 以 在 GitHub 上 找到 所 有 代码 ， 网 址 为 : https://github.com/nfmcclure/tensorflow_cookbook, 


8.1 知 积 伸 经 网 络 介绍 


从 数学 意义 上 讲 ， 卷 积 是 一 个 函数 在 另外 一 个 轴 数 中 的 嗜 加 。 在 本 例 中 ， 我 们 将 在 图 像 中 应 用 和 矩 孟 乘 法 过 滤器 。 图 8-1 展 示 了 图 像 
卷 积 如 何 工作 。 


2:2T3:1T0:10-1:3210 


Input (5x5) 


图 8-1 在 图 像 中 应 用 卷 积 过 滤器 操作 创建 新 特征 层 ， 其 中 卷 积 过 滤器 大 小 为 2X2， 在 5X5 的 输入 图 像 的 两 个 方向 上 以 步 长 为 1 进行 卷 
积 。 结 果 是 一 个 4X 久 4 短 阵 


卷 积 神 经 网 络 也 有 些 必 要 的 操作 ， 比 如 引入 非 线性 (ReLUERZX) ， 或 者 聚合 参数 (maxpool 函 数 ) ， 以 及 其 他 相似 的 操作 。 前 面 
的 图 像 是 在 一 个 2?x5 的 数组 上 进行 卷 积 操作 的 例子 ， 其 中 卷 积 过 滤器 为 2x2 的 算 阵 ， 步 长 为 1， 且 仅 考 虑 有 效 位 置 。 可 训练 的 变量 是 该 
操作 中 2x2 的 过 滤器 权重 。 一 般 崇 跟着 卷 积 之 后 的 是 聚合 操作 ， 比 如 池 化 。 图 8-2 提 供 一 个 闻 化 操作 的 例子 。 


Output (2x2) 


Input (4x4) 


图 8-2” 池 化 操作 的 例子 。 在 本 例 中 ， 窗 口 大 小 为 2X2， 在 4X4 的 输入 (有 效 位 置 ) 的 两 个 方向 上 以 步 长 为 2 进行 操作 。 结 有 果 是 2X2 的 


JE 


时 然 我 们 准备 创建 目 定 义 的 CNN 来 进行 图 像 识 别 ， 但 是 ， 强 烈 推荐 读者 使 用 现 有 的 架构 方案， 我们 在 后 续 章节 中 也 会 使 用 。 


av 


一 一般 采 用 预 训练 网 络 ， 并 在 最 后 用 全 连接 在 新 的 数据 集 上 再 训练 预 训练 的 神经 网 络 。 该 方法 是 非常 有 用 的 ， 后 续 章节 也 会 详 


细 讲 述 ， 并 再 训练 已 存在 的 架构 来 提升 CIFAR-10 的 预测 效果 。 


8.2 ”用 TensorFlow 实 现 简 单 的 CNN 


本 节 将 开发 一 个 四 层 卷 积 神 经 网 络 ， 提 逢 预测 MNIST 数 字 的 准确 度 。 前 两 个 卷 积 层 由 Convolution-ReLU-maxpool 操 作 组 成 ， 后 
两 层 是 全 联接 层 。 


8.2.1 开始 


为 了 访问 MNIST 数 据 集 ，TensorFlow 的 contrib 包 包含 数据 加 载 功能 。 数 据 集 加 载 之 后 ， 我 们 设置 算法 模型 变量 ， 创 建 模 型 ， 批 
量 训练 模型 ， 并 且 可 视 化 损失 函数 、 准 确 度 和 一 些 抽样 数字 。 


8.2.2 ”动手 做 


1. 加 载 必要 的 编程 库 ， 开 始 计算 图 会 话 ， 代 码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from tensorflow.contrib.learn.python.learn.datasets.mnist import 


read data sets 
sess = tf.Session() 


2. 加 载 数据 集 ， 转 化 图 像 为 28x28 的 数组 ， 代 码 如 下 : 


data dir = 'temp' 
mnist - read data sets(data dir) 
train xdata = np.array([np.reshape(x, (28,28)) for x in mnist. 


train.images]) 

test xdata = np.array([Inp.reshape(x, (28,28)) for x in mnist.test. 
images]) 

train labels - mnist.train.labels 

test labels - mnist.test.labels 


一 注意 ， 下 载 的 MINIST 数 据 集 包括 验证 数据 集 。 验 证 数据 集 的 大 小 与 测试 数据 集 相同 。 如 果 我 们 进行 超 参 数 调 优 或 者 模型 先 
树 ， 需 要 加 载 测 试 数据 集 和 验证 数据 集 。 


3. 设 置 模型 参数 。 由 于 图 像 是 灰 度 图 ， 所 以 该 图 像 的 深度 为 1， 即 颜色 通道 数 为 1， 代 码 如 下 : 


batch size = 100 

learning rate = 0.005 

evaluation size = 500 

image width = train xdata [0] .shape [0] 
image height = train xdata [0] .shape [1] 
target size = max(train labels) + 1 


num channels - 1 
generations - 500 
eval every = 5 
convl features = 25 
conv2 features = 50 
max pool sizel - 2 
max pool size2 - 2 


fully connected sizel = 100 


4. 为 数据 集 声明 占 位 符 。 同 时 ， 声 明 训 | 练 数据 集 变量 和 测试 数据 集 变量 。 本 例 中 的 训练 批量 大 小 和 评估 大 小 可 以 根据 实际 训练 和 
评估 的 机 器 物理 内 存 来 调整 ， 代 码 如 下 : 


x input shape = (batch size, image width, image height, num 
channels) 

x input - tf.placeholder(tf.float32, shape-x input shape) 

y target = tf.placeholder(tf.int32, shape-(batch size)) 

eval input shape - (evaluation size, image width, image height, 
num channels) 

eval input - tf.placeholder(tf.float32, shape-eval input shape) 
eval target = tf.placeholder(tf.int32, shape= (evaluation size)) 


5. 声 明 卷 积 层 的 权重 和 偏 置 ， 权 重 和 偏 置 的 参数 在 前 面 的 步骤 中 已 设置 过 ,代码 如 下 : 


convl weight = tf.Variable(tf.truncated normal([4, 4, num 
channels, convi features], stddev=0.1, dtypestf.float32)) 


convl bias = tf.Variable(tf.zeros([convi features] ,dtype=tf. 
£10at32)) 
conv2 weight - tf.Variable(tf.truncated normal([4, 4, convi 


features, conv2 features], stddev=0.1, dtype-tf.float32)) 


conv2 bias = tf.Varlable(tf.zeros([conv2 features],dtype-tf. 
£10at32)) 


6. 声 明 全 联接 层 的 权重 和 偏 置 ， 代 码 如 下 : 


resulting width = image width // (max pool sizel * max pool size2) 
resulting height = image height // (max pool sizel * max pool | 
Size2) 

fulll input size = resulting width * resulting height*conv2 _ 
features 


fulll weight = tf.Variable(tf.truncated normal([fulll input size, 
fully connected sizel], stddev=0.1, dtypestf.float32)) 


fulll bias = tf.Variable(tf.truncated normal([fully connected _ 
sizel], stddev=0.1, dtype=tf.float32) ) 


full2 weight = tf.Variable(tf.truncated normal ([fully connected _ 
sizel, target size], stddev=0.1, dtype=tf.float32) ) 


full2 bias = tf.Variable(tf.truncated normal ([target size], 
stddev=0.1, dtype-tf.float32)) 


7 PBR ARE, E375, MENRE my conv net () , ERZAN. SBA, ASREARSRRERRA 
效 工作 ， 我 们 将 前 两 层 卷 积 层 的 结果 挫 平 ， 代 码 如 下 : 


def my conv net (input data): 
4 First Conv-ReLU-MaxPool Layer 


convl = tf.nn.conv2d(input data, convl weight, strides-[1, 1, 
1, 1], padding='SAME' ) 

relul = tf.nn.relu(tf.nn.bias add(convl, conv] bias)) 

max pooll = tf.nn.max pool(relul, ksize-[1, max pool sizel, 
max pool sizel, 1], strides-[1, max pool sizel, max pool sizel, 


1], padding='SAME' ) 
# Second Conv-ReLU-MaxPool Layer 


conv2 = tf.nn.conv2d(max pooll, conv2 weight, strides=[1, 1, 
1, 1], padding='SAME' ) 

relu2 = tf.nn.relu(tf.nn.bias add(conv2, conv2 bias) ) 

max pool2 = tf.nn.max pool(relu2, ksize=[1, max pool size2, 
max pool size2, 1], strides-[1, max pool size2, max pool size2, 


1], padding='SAME' ) 

# Transform Output into a 1xN layer for next fully connected 
layer 

final conv shape = max pool2.get shape().as list() 

final shape - final conv shape[1] * final conv shape[2] * 
final conv shape[3] 

flat output = tf.reshape(max pool2, [final conv shape[0], 
final shapel) 

4 First Fully Connected Layer 

fully connectedl = tf.nn.relu(tf.add(tf.matmul(flat output, 
fulll weight), fulli bias)) 

# Second Fully Connected Layer 

final model output = tf.add(tf.matmul(fully connected1, full2 
weight), full2 bias) 

return(final model output) 


8. 声 明 训 练 模型 ,代码 如 下 : 
model output = my conv net (x input) 


test model output = my conv net (eval input) 


9. 因 为 本 例 的 预测 结果 不 是 多 分 类 ， 而 仅仅 是 一 类 ， 所 以 使 用 softmax 阔 数 作为 损失 阔 数 代码 如 下 : 


loss = tf.reduce mean(tf.nn.sparse softmax cross entropy with 
logits (model output, y target)) 


10. 创 建 训练 集 和 测试 集 的 预测 函数 。 同 时 ， 创 建 对 应 的 准确 度 函 数 ， 评 估 模 型 的 准确 度 ， 代 码 如 下 : 


prediction = tf.nn.softmax(model output) 
test prediction - tf.nn.softmax(test model output) 
# Create accuracy function 
def get accuracy(logits, targets): 
batch predictions = np.argmax(logits, axis-1) 
num correct = np.sum(np.equal (batch predictions, targets) ) 
return(100. * num correct/batch predictions.shape [0] ) 


11. 创 建 优化 器 函数 ， 声 明 训 练 步 长 ， 初 始 化 所 有 的 模型 变量 ,代码 如 下 : 


my optimizer = tf.train.MomentumOptimizer (learning rate, 0.9) 
train step = my optimizer.minimize(loss) 

4 Initialize Variables 

init = tf.initialize all variables () 

sess.run(init) 


12. 开 始 训练 模型。 遍历 迭代 随机 选择 批量 数据 进行 训练 。 我 们 在 训练 集 批量 数据 和 测试 集 批 量 数据 上 评估 模型 ， 保 存 损失 函数 和 
准确 度 。 我 们 看 到 ， 在 迭代 500 次 之 后 ， 测 试 数据 集 上 的 准确 度 达 到 96% ~ 97%， 代 码 如 下 : 


train loss = [|] 
train acc = [] 
test acc - [] 
for i in range (generations): 
rand index - np.random.choice(len(train xdata), size-batch 
size) 
rand x - train xdata[rand index] 
rand x = np.expand dims(rand x, 3) 
rand y - train labels[rand index] 
train dict = {x input: rand x, y target: rand y} 
sess.run(train step, feed dict=train dict) 
temp train loss, temp train preds = sess.run([loss, 
prediction], feed dict-train dict) 
temp train acc - get accuracy(temp train preds, rand y) 
if (i41) * eval every == 
eval index - np.random.choice(len(test xdata), 
size-evaluation size) E 
eval x = test Xdata [eval index] 
eval x = np.expand dims (eval x, 3) 


eval y = test labels[eval index| 

test dict = {eval input: eval x, eval target: eval y] 

test preds = sess.run(test prediction, feed dict=test _ 
dict) 

temp test acc = get accuracy(test preds, eval y) 

# Record and print results 

train loss.append(temp train loss) 

train acc.append(temp train acc) 

test acc.append(temp test acc) 


acc and loss = [(i+1), temp train loss, temp train acc, 
temp test acc] 
acc and loss - [np.round(x,2) for x in acc and loss] 
13. 输 出 结果 如 下 : 


print('Generation # {}. Train Loss: {:.2f£}. Train Acc (Test Acc): 
{:.2£} ({:.2£})'.format(*acc and loss) ) 

Generation # 5. Train Loss: 2.37. Train Acc (Test Acc): 7.00 
(9.80) 


Generation # 10. Train Loss: 2.16. Train Acc (Test Acc): 31.00 
(22 .00J 


Generation d 15. Train Loss: 2.11. Train Acc (Test Acc): 36.00 
(35.20) 


Generation # 490. Train Loss: 0.06. Train Acc (Test Acc): 98.00 
(97.40) 


Generation # 495. Train Loss: 0.10. Train Acc (Test Acc): 98.00 
(95.40) 


Generation # 500. Train Loss: 0.14. Train Acc (Test Acc): 98.00 
(96.00) 


14. 使 用 Matplotlib 模 块 绘制 损失 函数 和 准确 度 的 代码 ， 所 绘图 像 见 图 8-3: 


eval indices = range(0, generations, eval every) 
# Plot loss over time 

plt .plot (eval indices, train loss, 'k-') 
plt.title('Softmax Loss per Generation!) 
plt.xlabel ('Generation' ) 

plt.ylabel('Softmax Loss') 


plt.show() 

# Plot train and test accuracy 

plt.plot (eval indices, train acc, 'k-', label='Train Set 
Accuracy ' ) 

plt.plot (eval indices, test acc, 'r--', label='Test Set Accuracy') 


plt.title('Train and Test Accuracy!) 
plt.xlabel ('Generation') 
plt.ylabel ('Accuracy' ) 


plt.legend(loc='lower right') 
plt.show() 


15. 运 行 如 下 代码 打印 最 新 结果 中 的 六 幅 抽 样 图 ( 见 图 8-4) 。 


# Plot the 6 of the last batch results: 
actuals = rand yl0:6] 


predictions - np.argmax(temp train preds,axis-1) [0:6] 
images = np.squeeze(rand x[0:6] ) 

Nrows - 2 

Ncols = 3 


for i in range(6): 
plt.subplot (Nrows, Ncols, i+1) 
plt.imshow(np.reshape(images[il, [28,28]), cmap='Greys r') 
plt.title('Actual: ' + str(actuals[i]) + ' Pred: ' + str(predi 
ctions [i] ) , fontsize=10) 
frame = plt.gca() 
frame.axes.get xaxis().set visible(False) 
frame.axes.get yaxis().set visible(False) 
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图 8-3 左 图 是 训练 集 和 测试 集 迭 代 训 练 500 次 的 准确 度 ; A A EZ Ter | TAA SCAN J| 205500 K f] softmax 4i A Hh HK 


Actual: B Pred: 8 Actual: B Pred: 8 Actual: 3 Pred: 3 


Actual: 0 Pred: 0 | Actual: B Pred: 8 Actual: 1 Pred: 3 


图 8-4 ”六 幅 随 机 图 标题 中 的 实际 数字 和 预测 数字 。 右 下 角 图 片 预测 为 数字 3， 实 际 是 数字 1。 


8.2.3 ”工作 原理 


我 们 提升 了 算法 模型 在 MNIST 数 据 集 的 性 能 ， 并 且 从 原始 数据 集训 | 练 模型 迅速 获得 了 约 97% 的 准确 度 。 模 型 中 前 两 层 是 卷 积 操 
作 、ReLU 和 maxpool 的 组 合 。 后 两 层 是 全 联接 层 。 在 本 例 中 ， 批 量 训 | 练 的 批量 大 小 为 100， 在 迭代 训练 中 观察 准确 度 和 损失 浮 数 ， 最 
后 绘制 六 幅 随 机 图 片 以 及 对 应 的 实际 数字 和 预测 数字 。 


卷 积 昼 经 网 络 算法 在 图 像 识别 方向 效果 很 好 。 部 分 原因 是 卷 积 层 操作 将 图 片 中 重要 的 部 分 特征 转化 成 低 维 特征 。 卷 积 昼 经 网 络 模 
型 创建 它们 的 特征 ， 并 用 该 特征 预测 。 


8.2.4 延伸 学 习 


在 最 近 几 年 ，CNN 模 型 在 图 像 识 别 领 域 友 展 迅速 。 有 许多 相当 杰出 的 观点 和 架构 方案 频 出 。Arxiv.org 网 站 (https://arxiv.org/) 
收录 该 领域 的 论文 ， 该 网 站 是 由 康 奈 尔 大 学 创建 并 维护 的 。Arxiv.org 网 站 包含 许多 领域 最 新 发 表 的 文章 ， 比 如 计算 机 科学 及 其 子 领 
域 ， 如 计算 机 视觉 和 图 像 识 别 (https://arxiv.org/list/cs.CV/recent) 。 


8.25 参考 


下 面 是 一 些 卷 积 神经 网 络 算法 的 学 习 资 料 : 
>» Stanford University has a great wiki at http: //scarlet.stanford.edu/teach/ 
index.php/An Introduction to Convolutional Neural Networks 


> Deep Learning by Michael Nielsen, at: http: // 
neuralnetworksanddeeplearning.com/chap6.html 


>» An Introduction to Convolutional Neural Networks by Jianxin Wu at: http: // 
cs.nju.edu.cn/wujx/paper/CNN. pdf 


83 用 TensorFlow 实 现 进 阶 的 CNN 


CNN 模 型 在 图 像 识 别 上 的 扩展 是 如 何 增加 网 络 深度 的 。 如 果 我 们 有 足够 大 的 数据 集 ， 就 会 提高 预测 的 准确 度 。 重 复 卷 积 操作 、 
maxpool 操 作 和 ReLU 操 作 是 增加 神经 网 络 深度 的 标准 方法 。 许 多 准确 度 高 的 图 像 识 别 网 络 都 使 用 该 方法 。 


8.3.1 开始 


本 节 将 实现 一 个 更 复杂 的 读 取 图 像 数 据 的 方法 ， 并 使 用 更 大 的 CNN 模 型 进行 CIFAR10 数 据 集 
(https://www.cs.toronto.edu/~kriz/cifar.html) 上 的 图 像 识别 。 该 图 片 数 据 集 有 60000 张 32x 32 像 素 的 图 片 ， 分 10 个 类 别 。 图 片 


可 能 的 分 类 是 : airplane、automobile、bird、cat、deer、dog、frog、horse、ship 和 truck。 


大 部 分 图 片 数 据 集 都 大大， 不 能 全 部 放 入 内 人 存 。TensorFlow 的 做 法 是 建立 一 个 图 像 管 道 从 文件 中 一 次 批量 读 取 ; 而 我 们 会 建立 一 
个 图 像 数 据 读 取 器 ， 然 后 创建 一 个 批量 数据 的 队列。 


一 般 地 ， 对 于 图 像 识 别 的 数据 ， 都 会 在 模型 训练 前 将 图 片 随机 打 乱 。 本 例 中 ， 我 们 将 进行 随机 裁 况 、 翻 转 和 调节 亮度 。 


本 节 是 TensorFlow 官 方 CIFAR-10 例 子 的 改写 版 ， 其 中 官方 例子 见 参考 部 分 。 我 们 将 官方 例子 写成 脚本 ， 并 将 逐 行 解读 重要 的 代 
码 。 我 们 也 会 将 一 些 剃 量 值 和 参数 调整 为 论文 中 引用 的 值 ， 具 体会 在 详细 步骤 中 指明 。 


8.3.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 : 

import os 

import sys 

import tarfile 

import matplotlib.pyplot as plt 
import numpy as np 

import tensorflow as tf 

from six.moves import urllib 
sess - tf.Session() 


2. 声 明 一 些 模型 参数 。 将 训练 集 和 测试 集 的 批量 大 小 设 为 128。 我 们 总 共和 迭代 20000 次 ， 并 且 每 迭代 50 次 打印 出 状态 值 。 每 运 代 
500 次 ,我 们 将 在 测试 集 的 批量 数据 上 进行 模型 评估 。 设 置 图 片 长 度 和 宽度 ， 以 及 随机 裁 况 图 片 的 大 小 。 颜 色 通道 设 为 3 通道 (红色 、 
Ee) ,目标 分 类 设 为 10 类 。 最 后 声明 存储 数据 和 批量 图 片 的 位 置 。 具 体 代码 如 下 : 


batch size = 128 
output every - 50 
generations - 20000 
eval every - 500 
image height = 32 
image width = 32 
crop height = 24 
crop width = 24 

num channels = 3 
num targets = 10 
data dir = 'temp' 
extract folder = 'cifar-10-batches-bin' 


3 推荐 降低 学 习 率 来 训练 更 好 的 模型 ， 所 以 我 们 采用 指数 级 减 小 学 习 率 : ARARA., ERSE PES] 
率 ， 因 子 为 10%。 公 式 为 : 0.1.0.9， 其 中 x 是 当前 迭代 的 次 数 。TensorFlow 上 默认 是 连续 减 小 学 习 率 ， 但 是 也 接受 阶梯 式 更 新 学 习 率 ， 
代码 如 下 : 

learning rate = 0.1 

lr decay = 0.9 

num gens to wait - 250. 


4. 设 置 读 取 二 进 制 CIFA-10 图 片 的 参数 ， 代 码 如 下 : 


image vec length = image height * image width * num channels 
record length = 1 + image vec length 


5. 设 置 下 载 CIFAR-10 图 像 数 据 集 的 URL 和 数据 目录 ， 代 码 如 下 : 


data dir = 'temp' 
if not os.path.exists(data dir): 
os.makedirs (data dir) 


cifarl10 url = 'http://www.cs.toronto.edu/-kriz/cifar-10-binary. 
car. gz” 
data file = os.path.join(data dir, 'cifar-10-binary.tar.gz') 
if not os.path.isfile(data file): 
# Download file 


tilepsth, = ürllib.request.urlretrieve({cifar10 url, data. 
file, progress) 


# Extract file 
tarfile.open(filepath, 'r:gz').extractallí(data dir) 


6. 使 用 read cifar files () 遂 数 建立 图 片 读 取 器 ， 返 回 一 个 随机 打 乱 的 图 片 。 首 先 ， 声 明 一 个 读 取 固 定 字 节 长 度 的 读 取 器 ; 然后 
从 图 像 队 列 中 读 取 图 片 ， 抽 取 图 片 并 标记 ; 最 后 使 用 TensorFlow 内 建 的 图 像 修改 函数 随机 打 乱 图 片 ， 代 码 如 下 : 


def read cifar files(filename queue, distort images = True): 

reader = tf.FixedLengthRecordReader (record bytes=record _ 
length) 

key, record string - reader.read(filename queue) 

record bytes = tf.decode raw(record string, tf.uint8) 

# Extract label 

image label = tf.cast(tf.slice(record bytes, [0], [11), 
CF. 1ne32) 


# Extract image 


image extracted = tf.reshape(tf.slice(record bytes, [1], 


[image vec length]), [num channels, image height, image width] ) 
# Reshape image 
image uint8image = tf.transpose(image extracted, [1, 2, 01) 
reshaped image - tf.cast(image uint8image, tf.float32) 


# Randomly Crop image 
final image = tf.image.resize image with crop or pad(reshaped _ 
image, crop width, crop height) 
if distort images: 
# Randomly flip the image horizontally, change the 
brightness and contrast 
final image - tf.image.random flip left right(final image) 
final image - tf.image.random brightness(final image,max 
delta=63) 
final image tf.image.random contrast(final 
image, lower=0.2, upper-1.8) 


# Normalize whitening 
final image = tf.image.per image whitening(final image) 
return(final image, image label) 


7. 声 明 批 量 处 理 使 用 的 图 像 管道 填充 冰 数 。 首 先 ， 需 要 建立 读 取 图 片 的 列表 ， 定 义 如 何 用 TensorFlow 内 建 冰 数 创建 的 input 
producer 对 象 读 取 这 些 图 片 列表 。 把 input producer 传 入 上 一 步 创建 的 图 片 读 取 阔 数 read cifar files () 中 。 然 后 创建 图 像 队 列 的 批 
量 读 取 器 ，shuffle batch () 。 具 体 代码 如 下 : 


def input pipeline(batch size, train logical-True): 
if train logical: 


files - [os.path.join(data dir, extract folder, 'data 
batch {}.bin'.format(i)) for i in range(1,6)] 
else: 
files = [os.path.join(data dir, extract folder, 'test 
batch.bin')] 
filename queue - tf.train.string input producer(files) 
image, label - read cifar files(filename queue) 
min after dequeue - 1000 


capacity - min after dequeue « 3 * batch size 

example batch, label batch = tf.train.shuffle batch ([image, 
label], batch size, capacity, min after dequeue) 

return(example batch, label batch) 


一 设置 合适 的 min_after_dequeue 值 是 相当 重要 的 。 该 参数 是 设置 抽样 图 片 缓存 最 小 值 。TensorFlow 官 方 文档 推 荐 设置 为 
(#threadst+error margin) *batch_size。 注 意 ， 该 参数 设置 太 大 会 导致 更 多 的 shuffle。 从 图 像 队 列 中 shuffle 大 的 图 像 数据 集 需 要 更 多 的 内 
和 


8. 声 明 模 型 冰 数 。 本 例 的 模型 使 用 两 个 卷 积 层 ， 接 着 是 三 个 全 联接 层 。 为 了 便于 声明 模型 变量 ,我 们 将 定义 两 个 变量 消 数 。 两 层 
卷 积 操作 各 创建 64 个 特征 。 第 一 个 全 联接 层 联 接 第 二 个 卷 积 层 ， 有 384 个 隐 蕊 节点 。 第 二 个 联接 层 联接 刚才 的 384 个 隐藏 节点 到 192 个 
隐藏 节点 。 最 后 的 隐 蕊 层 操作 联接 192 个 隐 藏 节点 到 10 个 输出 分 类 。 具 体 见 下 面 "#" 注 释 部 分 ， 代 码 如 下 : 


def cifar cnn model (input images, batch size, train logical-True): 
def truncated normal var(name, shape, dtype): 


return(tf.get variable(name-name, shape=shape, 
dtype=dtype, initializerztf.truncated normal _ 
initializer (stddev=0.05) ) ) 


def zero var(name, shape, dtype): 
return (tt .get variable (name=name, shape=shape, 
dtype-dtype, initializer-tf.constant initializer(0.0))) 
4 First Convolutional Layer 
with tf.variable scope('conv1') as scope: 


# Conv kernel is 5x5 for all 3 colors and we will create 
64 features 


convl kernel = truncated normal var(name='conv_kernell', 
shape=[5, 5, 3, 64], dtype=tf.float32) 


# We convolve across the image with a stride size of 1 


convl = tf.nn.conv2d(input images, convi kernel, [1, 1, 1, 
1], padding-'SAME!) 


# Initialize and add the bias term 
convl bias = zero var(name='conv_biasl', shape-[64], 


dtype-tf.float32) 
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convi add bias = tt.nn.bias add(convl, convi Dias) 
4 ReLU element wise 
relu_convl = tfi.nn.relu(convl add bias) 
# Max Pooling 
pooll = tf.nn.max pool(relu_convl, ksize=[1, 3, 3, 1], 
strides=[1, 2, 2, 1],padding='SAME', name='pool layerl') 


# Local Response Normalization 
norml = tf.nn.lrn(pooli1, depth radius=5, bias=2.0, alpha=le-3, 
beta=0.75, name-'norml!) 
# Second Convolutional Layer 
with tf.variable scope('conv2') as scope: 
# Conv kernel is 5x5, across all prior 64 features and we 
create 64 more features 
conv2 kernel = truncated normal var(name='conv kernel2', 
shape=[5, 5, 64, 64], dtype-tf.float32) | i 
# Convolve filter across prior output with stride size of 


conv2 = tf.nn.conv2d(norm1, conv2 kernel, [1, 1, 1, 1], 
padding='SAME' ) 
# Initialize and add the bias 


conv2 bias = zero var(name='conv bias2', shape-[64], 
dtype=tf.float32) 
conv2 add bias = tf.nn.bias add(conv2, conv2 bias) 


# ReLU element wise 
relu conv2 - tf.nn.relu(conv2 add bias) 
4 Max Pooling 
pool2 = tf.nn.max pool (relu conv2, ksize=[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding='SAME', name='pool layer2') 
# Local Response Normalization (parameters from paper) 
norm2 = tf.nn.lrn(pool2, depth radius-5, bias=2.0, alpha-1e-3, 
beta=0.75, name='norm2') 
# Reshape output into a single matrix for multiplication for 
the fully connected layers 


reshaped output = tf.reshape(norm2, [batch size, -1]) 
reshaped dim = reshaped output.get shape() [1] .value 


# First Fully Connected Layer 


with tf.variable scope('fulll') as scope: 
# Fully connected layer will have 384 outputs. 
full weight1 = truncated normal var(name='full mult1', 
shape= [reshaped dim, 384], dtype=tf.float32) 
full biasl = zero var(name='full bias1', shape-[384], 


dtype-tf.float32) 


full layerl = tf.nn.relu(tf.add(tf.matmul(reshaped output, 
full weight1), full bias1)) 
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i Second Fully Connected Layer 
with tf.variable scope('full2') as scope: 
# Second fully connected layer has 192 outputs. 
full weight2 = truncated normal var(name-'full mult2', 
shape-[384, 192], dtype-tf.float32) 


full bias2 = zero var(name-'full bias2', shape= [192], 
dtype-tf.float32) 
full layer2 - tf.nn.relu(tf.add(tf.matmul(full layer1, 
full weight2), full bias2)) 
# Final Fully Connected Layer -> 10 categories for output 
(num targets) 
with tf.variable scope('full3') as scope: 
# Final fully connected layer has 10 (num targets) 
outputs. 


full weight3 = truncated normal var(name='full mult3', 
shape-[192, num targets], dtype-tf.float32) 
full bias3 - zero var(name-'full bias3', shape-[num 


targets], dtype-tf.float32) 
final output = tf.add(tf.matmul(full layer2, full 
weight3), full bias3) 


return (final output) 


归 一 化 参数 采用 参考 论文 中 的 值 ， 见 8.4.3 节 。 


9. 创 建 损失 函数 。 本 例 使 用 softmax 损 失 国 数 ， 因 为 一 张 图 片 应 该 属于 其 中 一 个 类 别 ， 所 以 输出 结果 应 该 是 10 类 分 类 的 概率 分 
布 ， 代 码 如 下 : 


def cifar loss(logits, targets): 
# Get rid of extra dimensions and cast targets into integers 
targets - tf.squeeze(tf.cast(targets, tf.int32)) 
# Calculate cross entropy from logits and targets 
cross entropy - tf.nn.sparse softmax cross entropy with 
logits(logits, targets) i i i i i 
# Take the average loss across batch size 
cross entropy mean = tf.reduce mean {cross entropy) 
return(cross entropy mean) 


10. 定 义 训练 步骤 函数 。 在 训练 步骤 中 学 习 率 将 指数 级 减 小 ， 代 码 如 下 : 


def train step(loss value, generation num): 

# Our learning rate is an exponential decay 
tf.train.exponential decay(learning 
lr decay, staircase=True) 


(stepped down) 


model learning rate - 
rate, generation num, num gens to wait, 

# Create optimizer 

my optimizer = tf.train.GradientDescentOptimizer (model _ 
learning rate) 

# Initialize train step 

train step = my optimizer.minimize(loss value) 


return(train step) 


11. 创 建 批量 图 片 的 准确 度 冰 数 。 该 阔 数 输入 logits 和 目标 向 量 ， 输 出 平均 准确 度 。 训 纤 批 量 图 片 和 测试 批量 图 片 都 可 以 使 用 该 准 
HERS, REUT : 
def accuracy of batch(logits, targets): 
4 Make sure targets are integers and drop extra dimensions 
targets - tf.squeeze(tf.cast(targets, tf.int32)) 
# Get predicted values by finding which logit is the greatest 
batch predictions - tf.cast(tf.argmax(logits, 1), tf.int32) 


4 Check if they are equal across the batch 
predicted correctly = tf.equal(batch predictions, targets) 
# Average the 1's and O's (True's and False's) across the 


batch size 


accuracy - 
tf.float32)) 
return (accuracy) 


tf.reduce mean(tf.cast(predicted correctly, 


12. 有 了 图 像 管 道 溺 数 input_pipeline () 后 ， 我 们 开始 初始 化 训练 图 像 管道 和 测试 图 像 管道 ， 代 码 如 下 : 


train logical-True) 


images, targets - input pipeline(batch size, 
train 


test images, test targets - input pipeline(batch size, 
logical-False) 


13. 初 始 化 训练 模型 。 值 得 注意 的 是 ， 需 要 在 创建 训练 模型 时 声明 scope.reuse_variables () ， 这 样 可 以 在 创建 测试 模型 时 重用 训 


练 模型 相同 的 模型 参数 ， 代 码 如 下 : 


with tf.variable scope('model definition') as scope: 
4 Declare the training network model 
model output = cifar cnn model(images, batch size) 
# Use same variables within scope 
scope.reuse variables() 


# Declare test model output 
test output - cifar cnn model(test images, batch size) 


14. 初 始 化 损失 函数 和 测试 准确 度 函 数 。 然 后 声明 从 代 变 量 。 该 欠 代 变量 需要 声明 为 非 训练 型 变量 ， 并 传 入 训练 函数 ， 用 于 计算 学 
习 率 的 指数 级 衰减 值 ， 代 码 如 下 : 

loss = cifar loss(model output, targets) 

accuracy - accuracy of batch(test output, test targets) 

generation num - tf.Variable(0, trainable-False) 

train op - train step(loss, generation num) 


15. 初 始 化 所 有 模型 变量 ， 然 后 运行 TensorFlow 的 start queue runners () PEZÀyeEJE EX. EEI FEAM E 
图 片 ， 开 始 训练 模型 和 测试 模型 输出 ， 代 码 如 下 : 


init - tf.initialize all variables() 
sess.run(init) 
tf.train.start queue runners (sess=sess) 


16. 现 在 遍历 运 代 训 练 ， 保 存 训 练 集 损 失 阔 数 和 测试 集 准 确 展 ， 代 码 如 下 : 


train loss = [] 
test accuracy = [] 
for i in range(generations): 
_, loss value = sess.run([train op, loss]) 


if (1+1) $ output every == 
train loss.append(loss value) 
output = 'Generation {}: Loss = [(:.5f]'.format((i-«1), 
loss value) 
print (output) 


if (1+1) %* eval every == 0: 
[temp accuracy] = sess.run( [accuracy] ) 
test accuracy.append(temp accuracy) 
acc output = ' --- Test Accuracy- 
{:.2£}%.'.format (100.*temp accuracy) 


print (acc output) 


17. 输 出 结果 如 下 : 


Generation 19500: Loss = 0.04461 
--- Test Accuracy = 80.47%. 
Generation 19550: Loss = 0.01171 
Generation 19600: Loss = 0.06911 
.08629 
.05296 
Generation 19750: Loss = 0.03462 


9 
Generation 19650: Loss - O0 
9 
O 

Generation 19800: Loss = 0.03182 
O 
0 
O 
0 
9 


Generation 19700: Loss - 


.07092 
.11342 
28/51 
A246 


o 
o. 


Generation 19850: Loss - 
Generation 19900: Loss - 
Generation 19950: Loss - 
Generation 20000: Loss - 

--- Test Accuracy - 83.5 


18.fs&FBimatplotlibi ERE mle EE ( 见 图 8-5) ， 代 码 如 下 : 


eval indices = range(0, generations, eval every) 
output indices - range(0, generations, output every) 
4 Plot loss over time 

plt .plot (output indices, train loss, 'k-') 
plt.title('Softmax Loss per Generation!) 
plt.xlabel ('Generation' ) 

plt.ylabel ('Softmax Loss') 

plt.show() 

# Plot accuracy over time 

plt.plot (eval indices, test accuracy, 'k-') 
plt.title('Test Accuracy!) 

plt.xlabel ('Generation' ) 

plt.ylabel ('Accuracy' ) 

plt.show() 


Softmax Loss per Generation Test Accuracy 
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K8-5 左 图 是 训练 集 损失 函数 图 ; 右 图 是 测试 集 准 确 度 图 。CIFAR-10 图 像 识别 的 CNN 模 型 达到 75% 的 准确 度 


8.3.3 ”工作 原理 


下 载 CIFAR-10 图 片 数 据 集 后 ， 我 们 建立 图 像 管道 。 关 于 图 像 管 踢 的 详细 信息 请 见 官方 TensorFlow CIFAR-10 示 例 。 我 们 使 用 训 
练 图 片 管道 和 测试 图 片 管 道 预测 图 片 的 准确 分 类 。 在 最 后 ， 模 型 训练 在 测试 数据 集 上 达到 了 75% 的 准确 度 。 


8.34 参考 


>» For more information about the CIFAR-10 dataset, please see Learning Multiple 
Layers of Features from Tiny Images, Alex Krizhevsky, 2009. https: //www. 
cs.toronto.edu/~kriz/learning-features-2009-TR.pdf 


> To see original TensorFlow code, visithttps://github.com/tensorflow/ 
tensorflow/tree/r0.11/tensorflow/models/image/cifar10 


>» For more on local response normalization, please see, ImageNet Classification 
with Deep Convolutional Neural Networks, Krizhevsky, A., et. al. 2012. http: // 
papers.nips.cc/paper/4824-imagenet-classification-with-deep- 
convolutional-neural-networks 


8.4 再 训练 已 有 的 CNN 模 型 


从 原始 数据 集 开 始 训练 一 个 全 新 的 图 像 识 别 模型 需 耗费 大 量 时 间 和 计算 力 。 如 果 我 们 可 以 重用 预 训练 好 的 网 络 训练 图 片 ， 将 会 缩 
短 计算 时 间 。 本 节 将 展示 如 何 使 用 预 训 练 好 的 TensorFlow 图 像 模 型 ， 微 调 后 训练 其 他 图 片 数据 集 。 


8.4.1 开始 


基本 思路 是 重用 预 训练 模型 的 卷 积 层 的 权重 和 结构 ， 然 后 重新 训练 全 联接 层 。TensorFlow 官 方 提供 一 个 利用 已 有 的 CNN 模 型 进 
行 绸 训练 的 例子 ( 见 8.4.4 节 ) 。 本 节 将 展示 如 何在 CIFAR-10 图 片 数据 集 上 使 用 相同 的 方法 。 我 们 采用 的 CNN 网 络 使 用 了 非常 流行 的 
InceptionZEfJ, Inception CNN 模 型 由 Google 公 司 创建 ， 并 在 许多 图 像 识 别 基 准 测试 中 表现 不 俗 ， 详 情 请 见 8.4.4 节 中 的 论文 。 


下 面 的 Python 脚 本 显示 如 何 下 载 CIFAR-10 图 片 数据 集 ， 目 动 分 割 图 片 数据 、 标 注 ， 并 保存 到 训 | 练 集 和 测试 集 文 件 中 的 十 个 分 
类 ;然后 展示 如 何 训练 图 片 数 据 集 。 


8.4.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 包 括 下 载 、 解 压 和 保存 CIFAR-10 图 片 数据 的 编程 库 ， 代 码 如 下 : 


import os 
import tarfile 
import  pickle as cPickle 


import numpy as np 
import urllib.request 
import scipy.misc 


2. 定 义 CIFAR-10 图 片 数据 链接 ， 创 建 存储 数据 的 临时 文件 夹 ， 并 声明 图 片 的 十 个 分 类 ， 代 码 如 下 : 


cifar link = 'https://www.cs.toronto.edu/-kriz/cifar-10-python. 
Car gz 
data dir = 'temp' 


if not os.path.isdir(data dir): 

os.makedirs (data dir) 
objects = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 
ttrog!', *'*horse', 'ship', "truck! 


3. 下 载 CIFAR-10.tar 数 据 文 件 ， 并 解压 压缩 文件 ， 代 码 如 下 : 


target file - os.path.join(data dir, 'cifar-10-python.tar.gz') 
if not os.path.isfile(target file): 


print('CIFAR-10 file not found. Downloading CIFAR data (Size - 
163MB) ') 


print('This may take a few minutes, please wait. ') 


filename, headers - urllib.request.urlretrieve(cifar link, 
target file) p 
# Extract into memory 
tar = tarfile.open(target file) 
tar.extractall(path-data dir) 
tar.close() 


4 .创建 训练 所 需 的 文件 来 结构 。 临 时 目录 下 有 两 个 文件 夹 train_qir 和 validation_dir。 每 个 文件 夹 下 有 10 个 子 文件 夹 ， 分 别 存储 10 
个 目标 分 类 ， 代 码 如 下 : 


# Create train image folders 
train folder = 'train dir' 
if not os.path.isdir(os.path.join(data dir, train folder)): 
for i in range(10): 
folder - os.path.join(data dir, train folder, objects[il) 
os.makedirs(folder) 
# Create test image folders 
test folder = 'validation dir' 
if not os.path.isdir(os.path.join(data dir, test folder)): 
for i in range(10): 
folder = os.path.join(data dir, test folder, objects [i]) 
os.makedirs(folder) 


5.73 f RRA, RIERA PIE RIDE A AFANAR, (SRR: 


def load batch from file(file): 
file conn = open(file, 'rb') 
image dictionary = cPickle.load(file conn, encoding-'latinl') 
file conn.close() 
return (image dictionary) 


6. 在 上 一 步 的 文件 夹 中 ， 为 每 个 目标 分 类 保存 一 个 文件 ， 代 码 如 下 


def save images from dict(image dict, folder='data dir'): 


for ix, label in enumerate(image dict['labels']): 


folder path = os.path.join(data dir, folder, 
objects [label] ) 


filename = image dict['filenames'] [ix] 

#Transform image data 

image array = image dict['data'] [1x] 

image array.resize([3, 32, 32]) 

# Save image 

output location = os.path.join(folder path, filename) 
Scipy.misc.imsave (output location,image array.transpose()) 


7 IFES, lel Pa, FCS SEAS, TSE: 


data location = os.path.join(data dir, 'cifar-10-batches-py!') 
train names = ['data batch ' + str(x) for x in range(1,6)] 
test names - ['test batch!] 


# Sort train images 
for file in train names: 

print('Saving images from file: [j'.format(file)) 

file location = os.path.join(data dir, 'cifar-10-batches-py', 
file) 

image dict - load batch from file(file location) 

save images from dict(image dict, folder-train folder) 
# Sort test images 
for file in test names: 

print('Saving images from file: {}'.format (file)) 

file location = os.path.join(data dir, 'cifar-10-batches-py', 
file) 

image dict - load batch from file(file location) 

save images from dict(image dict, folder-test folder) 


8.Python 脚 本 最 后 部 分 是 创建 标注 文件 。 该 文件 用 标注 〈 而 不 是 数值 泰 引 ) 目 解 释 输 出 结果 ， 代 码 如 下 : 


Citar IlaDels file = O8.path. join (data dir, 'cirario labeisg.txc') 
print ('Writing labels file, {}'.format(cifar labels file) ) 
with open(cifar labels file, 'w') as labels file: 
for item in objects: 
labels file.write("{}\n".format (item) ) 


9. 上 面 的 脚本 运行 之 后 ， 下 载 图 片 数 据 集 并 排序 归 类 。 接 着 按 TensorFlow 官 方 示例 操作 ， 先 复制 例子 源码 ， 代 码 如 下 : 


git clone https://github.com/tensorflow/models/tree/master/ 
inception/inception 


10. 为 了 重用 已 训练 好 的 模型 ， 我 们 下 载 神经 网 络 权重 并 应 用 于 新 神经 网 络 模型 ， 代 码 如 下 : 


me@computer:~$ curl -O http://download.tensorflow.org/models/ 
image/imagenet/inception-v3-2016-03-01.tar.gz 
meGcomputer:-$ tar xzf inception-v3-2016-03-01.tar.gz 


11. 准 备 好 图 片 文 件 ， 我 们 将 其 转 为 TFRecords 对 象 ， 代 码 如 下 : 
me@computer:~$ Python3 data/build image data.py 
--train directory-"temp/train dir/" 
--validation directory-"temp/validation dir" 
--output directory="temp/" --labels file-"temp/cifarl10 labels.txt" 
12. 使 用 bazel 模 块 训 练 算 法 模型 ， 设 置 fine_tune 参 数 为 true。 该 脚本 每 迭代 10 次 输出 损失 函数 。 我 们 可 以 随时 终止 进程 ， 因 为 模 
型 输出 结果 都 保存 于 temp/training_results 文 件 夹 。 我 们 能 从 该 文件 夹 加 载 模型 数据 进行 模型 评估 ， 代 码 如 下 : 
me@computer:~$ bazel-bin/inception/flowers train 
--train dir="temp/training results" --data dir="temp/data dir" 
--pretrained model checkpoint path="model.ckpt-157585" 
--fine tune=True --initial learning rate=0.001 


--input queue memory factor=1 


13. 训 | 练 输出 结果 如 下 : 


2016-09-18 12:16:32.563577: step 1290, loss 
sec; 26.965 sec/batch) 


2.02 (1.2 examples/ 


2016-09-18 12:25:41.316540: step 1300, loss - 2.01 (1.2 examples/ 
sec; 26.357 sec/batch) 


8.4.3 ”工作 原理 


TensorFlow 官 方 示例 训练 模型 是 基于 已 训练 好 的 CNN 模 型 ， 其 要 求 从 CIFAR-10 图 像 数 据 创 建文 件 夹 。 我 们 将 CIFAR-10 图 像 数 
据 转 化 成 TFRecords 文 件 格式 进行 模型 训练 。 注 意 ， 我 们 是 微调 已 有 的 网 络 模型 ， 重 新 训练 全 联接 层 来 拟 合 10 个 目标 分 类 。 


844 ”参考 


>» Official Tensorflow Inception-v3 tutorial: https: //github.com/tensorflow/ 
models/tree/master/inception 


>»  Googlenet Inception-v3 paper: https: //arxiv.org/abs/1512.00567 


85 ”用 TensorFlow 实 现 模仿 大 师 绘 男 


图 像 识 别 CNN 模 型 训练 好 之 后 ， 我 们 能 用 网 络 结构 训练 其 他 感 兴趣 的 数据 或 者 图 像 处 理 。Stylenet 程 序 试图 学 习 一 幅 图 的 风格 ， 
并 将 该 图 像 风 格 应 用 于 另外 一 幅 图 (保持 后 者 的 图 片 结构 或 者 内 容 ) 。 如 果 我 们 能 找到 CNN 模 型 中 间 层 节点 分 离 出 图 像 风 格 ， 束 可 以 
应 用 于 另外 的 图 片 内 容 上 。 


8.5.1 开始 


Stylenet 程 序 需 输入 两 幅 图 片 ， 将 一 幅 图 片 的 图 像 风 格 应 用 于 另外 一 幅 图 的 内 容 上 。 该 程序 基于 2015 年 友 布 的 著名 文章 “A 
Neural Algorithm of Artistic Style”， 见 8.5.4 节 。 该 文章 的 作者 友 现 一 些 CNN 模 型 的 中 间 层 存在 某 些 属性 可 以 编码 图 片 风格 和 图 片 
内 容 。 最 后 ， 我 们 从 风格 图 片 中 训练 图 片 风 格 层 ， 从 原始 图 片 中 训练 图 片 内 容 层 ， 并 且 反 向 传播 这 些 计算 损失 函数 ， 从 而 让 原始 图 片 
更 像 风 格 图 片 。 

我 们 将 下 载 文 章 中 推荐 的 网 络 一 一 imagenet-vgg-19。imagenet-vgg-16 网 络 也 表现 不 错 ， 但 是 前 述 文章 中 推荐 的 是 imagenet- 
vgg-19 网 络 。 


8.5.2 ”动手 做 


1. 下 载 预 训练 的 网 络 ， 存 为 .mat 文 件 格式 。mat 文 件 格式 是 一 种 matlab 对 象 ， 利 用 Python 的 scipy 模 块 读 取 该 文件 。 下 面 是 下 载 
mat 对 象 的 链接 ， 访 模型 保存 在 Python 脚 本 同一 文件 夹 下 。 


http://www.vlfeat.org/matconvnet/models/betal6/imagenet-vgg- 
verydeep-19.mat 


2. 导 入 必要 的 编程 库 ， 代 码 如 下 : 


import os 

import scipy.misc 
import numpy as np 
import tensorflow as tf 


3. 开 始 创建 计算 图 会 话 ， 声 明 两 幅 图 片 (原始 图 片 和 风格 图 片 ) 的 位 置 。 我 们 将 使 用 本 书 的 封面 作为 原始 图 片 ;， 林 高 的 大 作 
«Starry Night》 作 为 风格 图 片 。 这 两 幅 图 片 可 以 在 GitHub (https://github.com/nfmcclure/tensorflow cookbook) 上 下 载 ， 代 
码 如 下 : 


sess = tf.Session() 
original image file = 'temp/book cover.jpg' 
style image file = 'temp/starry night.jpg' 


4. 设 置 模型 参数 : mati, MANE, FIRK, URS BAAS. AME LEW AT SER ARS 
图 片 的 权重 。 这 些 参数 可 以 根据 实际 需求 稍微 做 出 调整 ， 代 码 如 下 : 


vgg path -z'imagenet-vgg-verydeep-19.mat' 


original image weight - 5.0 
style image weight = 200.0 
regularization weight - 50.0 
learning rate = 0.1 


generations - 10000 
output generations - 500 


5. 使 用 scipy 模 块 加 载 两 幅 图 片 ， 并 将 风格 图 片 的 维度 调整 的 和 原始 图 片 一 致 ， 代 码 如 下 : 


original image = scipy.misc.imread(original image file) 
style image - scipy.misc.imread(style image file) 

# Get shape of target and make the style image the same 
target shape - original image.shape 


style image - scipy.misc.imresize(style image, target shape[1] / 
style image.shape[1] ) 


6. 从 文章 中 获知 ， 我 们 能 定义 各 层 出 现 的 顺序 ， 本 例 使 用 文章 作者 约定 的 名 称 ， 代 码 如 下 : 


vgg layers = ['conv1 1', 'relul 1', 


'convl1 2', ‘'relul 2', 'pooll', 
'"nonv2 l'. *relu2 17, 
'Gonv2 21; relta 2*, "pools, 
'Gonv3 l', *relus 17, 
t Gonva 2*, Trelus 2", 
‘convs 3', ‘reluz 3*, 
'éonva 4°, ‘Pelus 4", 'DOOLS!, 
'conv4 1', 'relu4 1', 
'conv4 2', 'relu4 2', 
'conv4 3', 'relu4 3', 
'conv4 4', 'relu4 4', 'pool4', 
"onus L', "ELS X", 
"OOMS 2°, *xeiu5 2, 
'Bonvb 3", *relus 2, 
'conv5 4', 'relus5 4'] 


7 定义 函数 抽取 mat 文 件 中 的 参数 ， 代 码 如 下 


def extract net info(path to params): 
vgg data - scipy.io.loadmat(path to params) 
normalization matrix = vgg data['normalization'] [0] [0] [0] 
mat mean = np.mean(normalization matrix, axis-(0,1)) 
network weights = vgg datal['layers'] [0] 
return(mat mean, network weights) 


8.z&T- EXSIBEXBSJT ETUR EM, 3E TensorFlowBSPJg&esZic Gl EZ. ARIE, JO Bo eue Emm, Tu 
如 下 : 


def vgg network (network weights, init image): 

network = {} 

image = init image 

for i, layer in enumerate(vgg layers): 

if layer[1] == 'c': 

weights, bias = network weights [i] [0] [0] [0] [0] 
weights = np.transpose(weights, (1, 0, 2, 3)) 
bias = bias.reshape(-1) 


conv layer = tf.nn.conv2d(image, tf.constant (weights), 
(1, 1, 1, 1), 'SAME') 


image = tf.nn.bias add(conv layer, bias) 
elif layer[1] == 'r': 
image = tf.nn.relu(image) 
else: 
image = tf.nn.max pool(image, (1, 2, 2, 1), (1, 2, 2, 
1), 'SAME') 
network[layer] = image 


return (network) 


9. 参 考 文章 中 推荐 了 为 原始 图 片 和 风格 图 片 分 配 中 间 层 的 一 些 策略 。 在 本 例 中 ， 原 始 图 片 采 用 relu4 2 层 ， 风 格 图 片 采 用 reluX 1 
层 组 合 ， 代 码 如 下 : 


original layer = 'relu4 2' 
style layers = ['relul 1', 'relu2 1', 'relu3 1', 'relu4 1', 
'relu5 1'| 


103afzjextract net info () AORN ANEFS. GRA Bytes EDRU— TEIE, HRA AAA. 
TensorFlow 的 图 像 操作 是 针对 四 维 的 ， 所 以 需要 增加 维度 ， 代 码 如 下 : 


normalization mean, network weights = extract net info(vgg path) 
shape = (1,) + original image.shape 

style shape = (1,) + style image.shape 

original features = {} 

style features = {} 


11. 声 明 image 占 位 符 ， 并 创建 该 占 位 得 的 网 络 ， 代 码 如 下 : 


image = tf.placeholder('float', shape-shape) 
vgg net = vgg network (network weights, image) 


12.H—44JERSSES A ABS, eee Ths, (UBRO: 


original minus mean = original image - normalization mean 
original norm = np.array([original minus mean]) 

original features[original layer] - sess.run(vgg net[original 
layer], 

feed dict-[image: original norm]) 


13. 为 步骤 9 中 选择 的 每 个 风格 层 重 复 上 述 过 程 ， 代 码 如 下 : 


image = tf.placeholder('float', shape-style shape) 
vgg net = vgg network (network weights, image) 

style minus mean - style image - normalization mean 
style norm - np.array([style minus mean]) 

for layer in style layers: 


layer output = sess.run(vgg net[layer], feed dict={image: 
style normj) 

layer output - np.reshape(layer output, (-1, layer output. 
shape [31])) 


style gram matrix = np.matmul(layer output.T, layer output) / 
layer output.size 


style features[layer] - style gram matrix 


14. 为 了 创建 综合 的 图 片 ， 我 们 开始 加 入 随机 噪声 ， 并 运行 网 络 ， 代 码 如 下 : 


initial = tf.random normal(shape) * 0.05 
image - tf.Variable(initial) 
vgg net = vgg network (network weights, image) 


15. 声 明 第 一 个 损失 函数 ， 该 损失 上 函数 是 原始 图 片 的， 定义 为 步骤 9 中 选择 的 原始 图 片 的 relu4_2 层 输出 与 步骤 12 中 归 一 化 原始 图 片 
的 输出 的 差 值 的 L2 范 数 ， 代 码 如 下 : 


original loss = original image weight * (2 * tf.nn.l2 loss(vgg 
net [original layer] - original features[original layer]) / 
original features[original layer] .size) 


16. 为 风格 图 片 的 每 个 层 计 算 损失 函数 ， 代 码 如 下 : 


style loss = 0 
style losses = [] 
for style layer in style layers: 
layer - vgg net[style layer] 
feats, height, width, channels - [x.value for x in layer.get 
shape () ] 
Size = height * width * channels 
features = tf.reshape(layer, (-1, channels) ) 


style gram matrix = tf.matmul (tf.transpose (features), 
features) / size 

style expected = style features[style layer] 

style losses.append(2 * tf.nn.12 loss(style gram matrix - 
Style expected) / style expected.size) 
style loss «- style image weight * tf.reduce sum(style losses) 


17.58 — MRADMAGRAIRA, ZnB SRW. REUBÜASSEAPMASE, ALA RRRN abe, RAE 


片 具有 较 高 的 局 部 变 分 。 下 面 代码 中 的 关键 部 分 是 second term_numerator， 其 减 去 附近 的 像素 ， 高 噪声 的 图 片 有 较 高 的 变 分 。 我 们 
最 小 化 损失 函数 。 有 具体 代码 如 下 : 


total var x = sess.run(tf.reduce prod(image[:,1:,:,:].get 
shape () ) ) 

total var y = sess.run(tf.reduce prod(image[:,:,1:,:].get_ 
shape () ) ) 

first term = regularization weight * 2 
second term numerator = tf.nn.12 loss(image[:,1:,:,:] - 
image[:,:Shape[1]-1,:,:]) 

second term = second term numerator / total var y 

third term = (tf.nn.12 loss(image[:,:,1:,:] - 
image[:,:,:shape[2]-1,:]) / total var x) 

total variation loss = first term * (second term + third term) 


18. 最 小 化 总 的 损失 函 数 。 其 中 ， 总 的 损失 函数 是 原始 图 片 损失 、 风 格 图 片 损失 和 总 变 分 损失 的 组 合 ， 代 码 如 下 : 


loss = original loss + style loss + total variation loss 


19. 声 明 优化 器 函数 ， 初 始 化 所 有 模型 变量 ， 代 码 如 下 : 


optimizer = tf.train.GradientDescentOptimizer(learning rate) 
train step - optimizer.minimize(loss) 
sess.run(tf.initialize all variables()) 


20. IACI, AERIS TED BAAS SIS. ALAS ITAA ANE RT A AE, PRLS 
NEA. HIATCKRRAIE h, KAERRA AREA, FTAA SLAVE, (ASR: 


for i in range(generations) : 
sess.run(train step) 
# Print update and save temporary output 


if (1+1) % output generations == 0: 
print ('Generation {} out of {}'.format(i + 1, 
generations) ) 
image eval = sess.run(image) 
best image add mean = image eval.reshape(shape[1:]) + 


normalization mean 
output file = 'temp output {}.jpg'.format (i) 
scipy.misc.imsave(output file, best image add mean) 


21. 算 法 训练 结束 ， 我 们 将 保存 最 后 的 输出 结果 ( 见 图 8-6) ， 代 码 如 下 : 


image eval = sess.run(image) 

best image add mean = image eval.reshape(shape[1:]) + 
normalization mean 

output file = 'final output.jpg' 
scipy.misc.imsave(output file, best image add mean) 


Original Image (Book Cover) Starry Night 


图 8-6 ”使 用 Stylenet 算 法 训练 图 片 的 Starry Night 风 格 。 注 意 ， 可 以 使 用 不 同 的 权重 获取 不 同 的 图 片 风格 


首先 ， 加 载 两 幅 图 片 ， 然 后 加 载 预 训练 好 的 网 络 权 重 ， 为 原始 图 片 和 风格 图 片 分 配 网 络 层 。 我 们 计算 三 种 损失 函数 : 原始 图 片 损 
失 、 风 格 图 片 损 失 和 总 变 分 损失 。 然 后 训练 随机 噪声 图 片 ， 其 包含 风格 图 片 的 风格 和 原始 图 片 的 内 容 。 


> A Neural Algorithm of Artistic Style by Gatys, Ecker, Bethge. 2015. https://arxiv. 
org/abs/1508.06576. 


8.6 用 TensorFlow 实 现 DeepDream 


重用 已 训练 好 的 CNN 模 型 的 另外 一 个 应 用 是 利用 已 标注 特征 (CON, JERE SAE) 的 中 间 层 来 迁移 任意 图 片 。 本 节 将 介 
绍 TensorFlow 的 Deep Dream 的 示例 ， 同 时 会 详细 讲解 更 多 细节 .。 


8.6.1 开始 


TensorFlow 官 方 示例 通过 一 个 脚本 展示 如 何 实现 DeepDream， 该 脚本 见 8.6.4 节 。 官 方 例子 里 好 但 省 略 了 部 分 细节 ， 本 蔬 将 详细 
介绍 脚本 的 每 行 代码 ， 并 微调 部 分 代码 以 兼容 Python 3。 


8.6.2 ”动手 做 


1. 人 在 开始 实现 DeepDream 之 前 ， 我 们 需要 下 载 GoogleNet， 其 为 CIFAR-1000 图 片 数 据 集 上 已 训练 好 的 CNN 模 型 ， 代 码 如 下 : 


me@computer:~S$ wget https://storage.googleapis.com/download. 
tensorflow.org/models/inceptionb5h.zip 


me@computer:~$ unzip inception5h.zip 
2 导入 必要 的 代码 库 ， 并 创建 一 个 计算 图 会 话 ， 代 码 如 下 : 


import os 

import matplotlib.pyplot as plt 

import numpy as np 

import PIL.Image 

import tensorflow as tf 

from io import BytesIO 

graph - tf.Graph() 

sess = tf.InteractiveSession(graph-graph) 


3. 声 明 解 压 的 模型 参数 的 位 置 ， 并 且 将 这 些 参数 加 载 进 TensorFlow 的 计算 图 ， 代 码 如 下 : 


# Model location 

model fn - 'tensorflow inception graph.pb' 

# Load graph parameters 

with tf.gfile.FastGFile(model fn, 'rb') as f: 
graph def = tf.GraphDef() 
graph def.ParseFromString(f.read()) 


4 .创建 输 入 数据 的 占 位 待 ， 设 置 imagenet_mean 为 117.0; 然后 导入 计算 图 定义 ， 并 传 入 归 一 化 的 占 位 符 ， 代 码 如 下 : 


# Create placeholder for input 

t input - tf.placeholder(np.float32, name-'input') 

# Imagenet average bias to subtract off images 

imagenet mean - 117.0 

t preprocessed = tf.expand dims(t input-imagenet mean, 0) 
tf.import graph def (graph def, {'input':t preprocessed}) 


5. 导 入 卷 积 层 进行 可 视 化 ， 并 人 在 后 续 处 理 DeepDream 时 使 用 ， 代 码 如 下 : 


# Create a list of layers that we can refer to later 


layers - [op.name for op in graph.get operations() if 
op.type=='Conv2D' and 'import/' in op.name] 

# Count how many outputs for each layer 

feature nums = [int(graph.get tensor by name (name+':0') .get 
shape()[-1]) for name in layers] 


6. 现 在 可 以 找 某 一 层 进 行 可 视 化 了 。 我 们 可 以 通过 层 的 名 字 或 者 特征 数字 139 来 查看 。 对 图 片 进行 噪声 处 理 ， 代 码 如 下 : 


layer = 'mixed4d 3x3 bottleneck pre relu' 
channel = 139 
img noise = np.random.uniform(size=(224,224,3)) + 100.0 


7. 声 明锐 数 来 绘制 图 片 数 组 ， 代 码 如 下 : 


def showarray(a, fmt='jpeg'): 
# First make sure everything is between 0 and 255 
a= np.uint8(np.clip(a, 0, 1)*255) 
# Pick an in-memory format for image display 
f = BytesIO() 
H Create the in memory image 
PIL.Image.fromarray(a).save(f, fmt) 
# Show image 
plt.imshow (a) 


8. TARRA ERARA AERAR, RURAR, TSMR: 


def T(layer): 
#Helper for getting layer output tensor 
return graph.get tensor by name("import/%s:0"%layer) 


9. PAE TONE SWATH, RAL BeESSURE ot, SMR: 


# The following function returns a function wrapper that will 
create the placeholder 


# inputs of a specified dtype 
def tffunc(*argtypes): 


'''Helper that transforms TF-graph generating function into a 
regular one. 


See "resize" function below. 


placeholders = list(map(tf.placeholder, argtypes) ) 


def wrap(f): 
out = £(*placeholders) 
def wrapper(*args, **kw) : 
return out.eval (dict (zip(placeholders, args)), 
session=kw.get('session') ) 


return wrapper 


return wrap 


10. 创 建 调整 图 片 大 小 的 函数 ， 其 可 以 指定 图 片 大 小 。 该 国 数 采用 TensorFlow 的 内 建 图 片 线性 差 值 玉 数 
tf.image.resize.bilinear () ， 代 码 如 下 : 


bilinear(): 


# Helper function that uses TF to resize an image 
def resize(img, size): 
img = tf.expand dims (img, 0) 
# Change 'img' size by linear interpolation 
return tf.image.resize bilinear(img, size) [0,:,:,:] 


11. 现 在 需要 一 种 方法 更 新 源 图 片 ， 让 其 更 像 选 择 的 特征 。 我 们 通过 指定 图 片 的 梯度 如 何 计 算 来 实现 。 我 们 定义 函数 计算 图 片上 子 
Kik ( 方 格 ) 的 梯度 计算 ,使 得 梯度 计算 更 快 。 我 们 将 在 图 片 的 x 轴 和 Yy 轴 方向 上 随机 移动 或 者 深 动 ， 这 将 平滑 方 格 的 影响 ， 代 码 如 
F: 


def calc grad tiled(img, t grad, tile size=512): 
'''Compute the value of tensor t grad over the image in a tiled 
Way. 
Random shifts are applied to the image to blur tile boundaries 
over 
multiple iterations.''' 
# Pick a subregion square size 
sz = tile size 
# Get the image height and width 
h, w - img.shape[:2] 
# Get a random shift amount in the x and y direction 
SX, Sy - np.random.randint(sz, size-2) 
# Randomly shift the image (roll image) in the x and y 
directions 
img shift s np.roll(np.roll(img, sx, 1), sy, 0) 
# Initialize the while image gradient as zeros 
grad = np.zeros like(img) 
# Now we loop through all the sub-tiles in the image 
for y in range(0, max(h-sz//2, sz),sz): 
for x in range(0, max(w-sz//2, sz),sz): 
# Select the sub image tile 
sub = img shiftly:y+sz,x:x+szZ] 
# Calculate the gradient for the tile 
g - sess.run(t grad, (t input:sub]) 
# Apply the gradient of the tile to the whole image 
gradient 
grad[y:y«Sz,x:x«sz] = g 
# Return the gradient, undoing the roll operation 
return np.roll(np.roll(grad, -sx, 1), -sy, 0) 


12.F5BBgDeepDreameEZX, DeepDream ANWR SIA Ae. RARER HEA, RTA E AANS 
征 之 间 的 距离 。 分 割 图 像 为 高 频 部 分 和 低频 部 分 ， 在 低频 部 分 上 计算 梯度 。 将 高 频 部 分 的 结果 再 分 割 为 高 频 部 分 和 低频 部 分 ， 重 复 前 
面 的 过 程 。 原 始 图 片 和 低频 图 片 称 为 octaves。 对 传 入 的 每 个 对 象 ， 计 算 其 梯度 并 应 用 到 图 片 中 ， 代 码 如 下 : 


def render deepdream(t obj, imgO-img noise, 
iter n-10, step-1.5, octave n-4, octave 
scale=1.4): i i i 

# defining the optimization objective, the objective is the 
mean of the feature 

t score = tf.reduce mean(t obj) 

# Our gradients will be defined as changing the t input to get 
closer tothe values of t score. Here, t score is the mean of the 
feature we select. 

# t input will be the image octave (starting with the last) 

t grad = tf.gradients(t score, t input)[0] # behold the power 
of automatic differentiation! 


# Store the image 

img - imgO 

# Initialize the image octave list 
octaves - [] 


# Since we stored the image, we need to only calculate n-1 
octaves 


for i in range (octave n-1): 
4 Extract the image shape 
hw - img.shape[:2] 
# Resize the image, scale by the octave scale (resize by 
linear interpolation) 
lo = resize(img, np.int32(np.float32(hw)/octave scale)) 


# Residual is hi. Where residual = image - (Resize lo to 
be hw-shape) 


hi - img-resize(lo, hw) 

# Save the lo image for re-iterating 
img - lo 

# Save the extracted hi-image 
octaves.append (hi) 


# generate details octave by octave 
for octave in range(octave n): 
if octave»0: 
# Start with the last octave 


hi - octaves[-octave] 

E 

img = resize(img, hi.shape[:2])-«hi 

for i in range(iter n): 

# Calculate gradient of the image. 

g = calc grad tiled(img, t grad) 

# Ideally, we would just add the gradient, g, but 

# we want do a forward step size of it ('step'), 

4 and divide it by the avg. norm of the gradient, so 

4 we are adding a gradient of a certain size each 
step. 

# Also, to make sure we aren't dividing by zero, we 
add 1e-7. 


img += g*(step / (np.abs(g) .mean()+1e-7) ) 
print('.',end = '') 
showarray (img/255.0) 


13 MBRET Zia, Feae{TDeepDreamSiz, RAT (对 应 的 图 见 图 8-7) : 


# Run Deep Dream 
if | name --" main ": 
# Create resize function that has a wrapper that creates 
Specified placeholder types 
resize = tffunc(np.float32, np.int32) (resize) 


# Open image 

img0 = PIL.Image.open('book cover.jpg') 
imgO = np.float32 (img0) 

# Show Original Image 

showarray (img0/255.0) 

# Create deep dream 


render deepdream(T(layer)[:,:,:,139], imgO, iter n=15) 
sess.close() 
Feature #50 Feature #110 


图 8-7 采用 DeepDream 训 练 的 封面 图 ， 特 征 数 分 别 为 50、110、100 和 139 


8.6.3 ”延伸 学 习 


我 们 希望 读者 访问 官方 DeepDream 例 子 了 解 更 多 参考 信息 ， 也 可 以 阅读 Google research 关 于 DeepDream 的 博客 ， 见 8.6.4 节 。 


8.6.4 参考 


>» The TensorFlow tutorial on DeepDream: https: //github.com/tensorflow/ 
tensorflow/tree/master/tensorflow/examples/tutorials/deepdream 


>» The original Google research blog post on DeepDream: https: //research. 
googleblog.com/2015/06/inceptionism-going-deeper-into-neural. 
html 


第 9 章 ales hl es 


本 章 详细 介绍 递归 神经 网 络 (recurrent neural network, RNN) ， 以 及 如 何 使 用 TensorFlow 实 现 递归 神经 网 络 。 首 先 介绍 如 
何 使 用 递归 神经 网 络 预测 垃圾 短信 ;然后 基于 RNN 的 变种 创建 水 士 比 亚 著 作文 本 ; 最 后 创建 一 个 RNN 的 Seq2Seq 翻 译 模型 将 英文 翻译 
为 德 文 。 学 完 本 章 将 掌握 以 下 知识 点 : 


TensorFlow 实 现 RNN 模 型 进行 垃圾 短信 预测 
TensorFlow 实现 LSTM 模 型 

: TensorFlow 实现 LSTM 一 层 

: TensorFlow 实现 Seq2Seq 翻 译 模 型 

- TensorFlow È Ji, ZE ^E RNIN $t W) FAW È 


注意 ， 本 章 的 代码 可 以 在 GitHub 上 浏览 ， 网 址 为 : https;//github.com/nfmcclure/tensorflow cookbook, 


前 面 介绍 的 所 有 机 器 学 习 算 法 都 没有 考虑 序列 数据 的 情况 。 为 了 处 理 序列 数据 ， 我 们 将 扩展 神经 网 络 以 存储 前 一 次 达 代 的 输出 ， 
这 类 神经 网 络 算法 称 为 递归 神经 网 络 。 全 联接 网 络 的 公式 为 : 


其 中 ，A 为 加 权 权 重 ，x 为 输入 层 。 运 行 滞 励 函数 6， 会 返回 输出 层 y。 如 果 有 序列 输入 数据 ，x1，x2，x3，.…， 我 们 修改 全 联接 层 
从 而 把 前 一 个 输入 考虑 在 内 ， 表 达 式 如 下 : 


在 递归 过 代 的 基础 上 获取 下 一 个 输入 。 通 过 softmax 函 数 得 到 概率 分 布 输出 ， 表 达 式 如 下 : 


s, — softmax (Cy, 


一 旦 有 了 所 有 序列 的 输出 {s1，s2，s3，.…}， 我们 可 以 只 考虑 最 后 一 个 输出 作为 目标 数值 或 者 目标 分 类 。 图 9-1 清 晰 地 展示 了 该 架 
构 是 如 何 工作 的 。 


initial | 
state 


tokenl token2 «END» 


图 9-1 token 序列 输入 ， 最 后 一 个 序列 输出 结果 作为 预测 输出 结果 (预测 单个 数值 或 者 分 类 ) 


我 们 也 可 以 把 序列 输出 结果 作为 序列 ( 见 图 9-2) ， 即 Seq2Seq 模 型 : 


target1 ana «END» 


initial 
state 


tokenl token2 «END» 


图 9-2 ”我 们 可 以 将 序列 输出 结果 反馈 回 模 型 生成 多 个 输出 结果 (以 预测 一 个 序列 ) 


对 于 任意 长 度 的 序 刘 ， 利 用 反 辣 传播 算法 训练 创建 长 时 间 依赖 的 梯度 。 这 样 会 出 现 梯度 消失 或 者 梯度 爆炸 的 问题 。 在 本 章 后 续 部 
分 ， 我 们 将 探索 LSTM (Long Short Term Memory， 长 短期 记忆 ) 单元 的 RNN 曲 元 算法 解决 该 问题 。 基 本 思想 是 LSTM 单 元 引入 门 
操作 (gate) ， 该 门 操作 控制 序列 上 信息 的 流动 。 后 续 章节 将 会 详细 讲解 。 


VX 
a 


-一 当 RNN 模 型 处 理 NLP 时 ， 编 码 用 来 描述 将 数据 (NLP 中 的 单词 或 者 字符 ) 转换 为 数值 型 RNN 特 征 的 过 程 ; 解码 用 来 描述 将 数 
值 型 RNN 特 征 转换 成 输出 的 单词 或 者 字符 的 过 程 。 


9.2 ”用 TensorFlow 实 现 RNN 模 型 进行 垃圾 短信 了 预测 


应 用 标准 的 RNN 蛙 元 预测 奇异 数值 型 输出 。 


9.2.1 开始 
本 节 将 用 TensorFlow 实 现 一 个 标准 的 RNN 模 型 ， 预 测 文本 短信 是 正常 短信 还 是 垃圾 短信 。 本 例 使 用 UCI 大 学 的 机 器 学 习 仓库 中 的 


SMS 坪 圾 短信 数据 集 。 本 例 使 用 的 预测 架构 是 ， 嵌 套 文本 中 的 输入 RNN 序 列 ， 取 最 后 一 个 RNN 输 出 作为 是 人 否 为 垃圾 短信 (1 或 r0) 的 
预测 。 


9.2.2 动手 做 


1. 导 入 必要 的 编程 库 ， 代 码 如 下 : 


import os 

import re 

import 10 

import requests 

import numpy as np 

import matplotlib.pyplot as plt 
import tensorflow as tf 

from zipfile import ZipFile 


2. 开 始 计算 图 会 话 ， 并 设置 RNN 模 型 参数 。 训 练 数据 20 个 epoch， 批 量 大 小 为 250。 短 信和 最 大 长 度 为 25 个 单词 ， 超 过 的 部 分 会 被 
截取 掉 ， 不 够 的 部 分 用 0 填充 。RNN 模 型 由 10 个 单元 组 成 。 我 们 仅仅 处 理 词 频 超过 10 的 单词 ， 每 个 单词 会 座 套 在 长 度 为 50 的 词 向 量 
中 。dropout 概 率 为 占 位 符 ， 训 练 模型 时 设 为 0.5， 评 估 模 型 时 设 为 1.0。 具 体 代码 如 下 : 


sess = tf.Session() 
epochs - 20 

batch size - 250 

max sequence length - 25 


rnn Size - 10 
embedding size - 50 
min word frequency - 10 


learning rate - 0.0005 
dropout keep prob = tf.placeholder(tf.float32) 


3. 获 取 SMS 文 本 数据 集 。 首 先 ， 在 下 载 文 本 数据 集 前 检查 是 否 已 下 载 过 。 如 果 已 经 下 载 过 数据 集 ， 和 直接 从 文件 中 读 取 ， 代 人 码 如 
F: 


data dir = 'temp' 
data file = 'text data.txt' 
if not os.path.exists(data dir): 
os.makedirs (data dir) 
if not os.path.isfile(os.path.join(data dir, data file)): 
zip url = 'http://archive.ics.uci.edu/ml/machine-learning- 
databases/00228/smsspamcollection.zip' 


r = requests.get (zip url) 

Z = ZipFile(io.BytesIO(r.content)) 

file = z.read('SMSSpamCollection' ) 

# Format Data 

text data = file.decode() 

text data = text data.encode('ascii',errors='ignore') 

text data = text data.decode().split('\n') 

# Save data to text file 

with open(os.path.join(data dir, data file), 'w') as file 
conn: 

for text in text data: 


file conn.write("{}\n".format (text) ) 
else: 
# Open data from text file 
text data = [] 
with open(os.path.join(data dir, data file), 'r') as file 
conn: 
for row in file conn: 
text data.append (row) 
text data = text datal[:-1] 
text data = [x.split('\t') for x in text data if len(x)»-1] 
[text data target, text data train] = [list(x) for x in zip(*text 
data) ] 


4. 我 们 将 清洗 文本 数据 集 ， 移 除 特殊 字符 ， 将 所 有 文本 转 为 小 写 ， 以 空格 提取 单词 ， 代 码 如 下 : 


def clean text (text string): 
text string = re.sub(r'([ \s\w]| |[0-9])+', '', text string) 
text string - " ".join(text string.split()) 
text string - text string.lower() 
return(text string) 
# Clean texts 
text data train - [clean text(x) for x in text data train] 


«C l 
\ 妆 一 注意 从 文本 数据 中 清洗 移 除 特殊 字符 的 步骤 ， 有 时 可 以 用 空格 蔡 换 该 特殊 字符 。 在 理想 情况 下 ， 需 要 根据 数据 集 的 格式 选择 
有 具体 的 方法 处 理 。 


5. 使 用 TensorFlow 内 建 的 词汇 处 理 器 处 理 文 本 。 该 步骤 将 文本 转换 为 索引 列表 ， 代 码 如 下 : 


vocab processor = tf.contrib.learn.preprocessing. 
VocabularyProcessor(max sequence length,min frequency-min word 
frequency) 


text processed - np.array(list(vocab processor.fit transform(text 
data train))) 


6. 随 机 shuffle 文 本 数据 集 ， 代 码 如 下 : 


text processed = np.array(text processed) 


text data target = np.array([1 if x=='ham' else 0 for x in text _ 
data target]) 


shuffled ix - np.random.permutation(np.arange(len(text data 
target))) 


x shuffled - text processed[shuffled ix] 
y shuffled - text data target[shuffled ix] 


7 分割 数 据 集 为 80-20 的 训练 -测试 数据 集 ， 代 码 如 下 : 


ix cutoff = int(len(y shuffled)*0.80) 

x train, x test = x shuffled[:ix cutoff], x shuffled[ix cutoff:] 
y train, y test = y shuffled[:1x cutoff], y shuffled[ix cutoff: ] 
vocab size = len(vocab processor.vocabulary ) 


print ("Vocabulary Size: {:d}".format (vocab size)) 


print ("80-20 Train Test split: {:d} -- {:d}".format(len(y train), 
len(y test))) 


次 一 本 小 节 我 们 不 准备 做 超 参 数 调 优 。 如 果 读 者 有 这 方面 的 需求 ， 请 在 预 处 理 前 将 数据 集 分 割 为 训练 集 -测试 集 - 验 证 集 。scikit 


leatn 的 model_selection.ttain_test_split () AAT AEMT AD) 训练 集 和 测试 集 。 


8. 声 明 计算 图 的 占 位 符 。 输 入 数据 x_data 是 形状 为 [None，max sequence length] 的 占 位 符 ， 其 以 短信 最 大 允许 的 长 度 为 批量 大 
小 。 输 出 结果 y_output 的 占 位 符 为 整数 0 或 者 1， 即 正常 短信 或 者 垃圾 短信 ， 代 码 如 下 : 


x data = tf.placeholder(tf.int32, [None, max sequence length]) 
y output = tf.placeholder(tf.int32, [Nonel) 


9.8) £858; Ex dataBJEXEXAREERTERESEREERIE, TURBAT: 


embedding mat - tf.Variable(tf.random uniform([vocab size, 
embedding size], -1.0, 1.0)) 


embedding output = tf.nn.embedding lookup (embedding mat, x data) 


10. 声 明 算法 模型 。 首 先 ， 初 始 化 RNN 单 元 的 类 型 ， 大 小 为 10。 然 后 通过 动态 RNN 函 数 tf.nn.dynamic_rnn () 创建 RNN 序 列 ， 
接着 增加 dropout 操 作 ， 代 码 如 下 : 


cell = tf.nn.rnn cell.BasicRNNCell(num units = rnn size) 
output, state - tf.nn.dynamic rnn(cell, embedding output, 
dtype-tf.float32) 

output - tf.nn.dropout(output, dropout keep prob) 


‘> EB, DARNNAGEK PA. EKA SEAM LACKEY), RA 4 A1e H]TensorFlowtgtf.nn.dynamic ran () $% 
数 。 主 要 原因 是 : KRW SSRNNAMHAH LR, FLAARNN PIS KARAM FS. 


ATA, SSABSSTHOIRNNDS OR, SORA, (SRE: 

output = tf.transpose(output, [1, 0, 21) 

last = tf.gather(output, int (output.get shape()[0]) - 1) 
12. 为 了 完成 RNN 预 测 ， 我 们 通过 全 联接 层 将 rnn_size 大 小 的 输出 转换 为 二 分 类 输出 ， 代 码 如 下 : 


weight = tf.Variable(tf.truncated normal([rnn size, 2], 
stddev=0.1)) 

bias = tf.Variable(tf.constant(0.1, shape=[2]) ) 

logits out = tf.nn.softmax(tf.matmul (last, weight) + bias) 


13. 声 明 损 失 消 数 。 本 例 使 用 TensorFlow 的 sparse_softmax 函 数 ， 目 标 值 是 int 型 索引 ，logits 是 float 型 ,代码 如 下 : 


losses = tf.nn.sparse softmax cross entropy with logits(logits © 
out, y output) 
loss = tf.reduce mean(losses) 

14 .创建 准确 度 函 数 ， 比 较 训练 集 和 测试 集 的 训练 结果 ， 代 码 如 下 : 


accuracy = tf.reduce mean(tf.cast(tf.equal(tf.argmax(logits out, 
1), tf.cast(y output, tf.int64)), tf.float32)) 


15. 创 建 优 化 器 函数 ， 初 始 化 模型 变量 ， 代 码 如 下 : 


optimizer = tf.train.RMSPropOptimizer(learning rate) 
train step - optimizer.minimize(loss) 
init - tf.initialize all variables() 


sess.run(init) 


16. 5s EA RARE, WAGERS XR, BEEESCHESK8d: 每 个 epoch 都 需 随机 shuffle 数 据 ， 避 免 过 拟 合 ， 代 码 如 下 : 


train loss = [] 
test loss = [] 
train accuracy - [] 
test accuracy = [] 
# Start training 
for epoch in range (epochs): 
# Shuffle training data 
shuffled ix - np.random.permutation(np.arange(len(x train))) 
X train = x train[shuffled ix] 
y train - y train[shuffled ix] 
num batches = int(len(x train)/batch size) + 1 
for i in range (num batches): 
# Select train data 
min ix = i * batch size 
max ix = np.min([len(x train), ((1+1) * batch size)]l) 
x train batch - x train[min ix:max ix] 
y train batch - y train[min ix:max ix] 


# Run train step 
train dict = {x data: x train batch, y output: y train 
batch, dropout keep prob:0.5} 


sess.run(train step, feed dict-train dict) 


# Run loss and accuracy for training 

temp train loss, temp train acc = sess.run([loss, accuracy], 
feed dict-train dict) 

train loss.append(temp train loss) 

train accuracy.append(temp train acc) 


# Run Eval Step 

test dict = {x data: x test, y output: y test, dropout keep 
prob:1.0} 

temp test loss, temp test acc = sess.run([loss, accuracy], 


feed dict=test dict) 
test loss.append(temp test loss) 
test accuracy.append(temp test acc) 
print('Epoch: {}, Test Loss: {:.2}, Test Acc: [:.2]'. 
format (epoch+1, temp test loss, temp test acc)) 


17. 输 出 结果 如 下 : 


Vocabulary Size: 933 

80-20 Train Test split: 4459 -- 1115 
Epoch: 1, Test Loss: 0.59, Test Acc: 0.83 
Epoch: 2, Test Loss: 0.58, Test Acc: 0.83 
Epoch: 19, Test Loss: 0.46, Test Acc: 0.86 
Epoch: 20, Test Loss: 0.46, Test Acc: 0.86 
18. 绘 制 训 | 练 集 、 测 试 集 损失 和 准确 度 的 代码 如 下 : 

epoch seq = np.arange(1, epochs-«1) 


plt 
plt 
plt 
plt 
plt 


.plot (epoch seq, 
.plot (epoch seq, 
.title('Softmax Loss') 
.xlabel ('Epochs') 

.ylabel('Softmax Loss') 
plt. 
DLÉ. 


'k--', label='Train Set') 
label='Test Set') 


train loss, 


test. loss, 'r-', 


legend (loc='upper left') 
show () 


# Plot accuracy over time 


OLE 
DIE 
DLE 
pit 
pit 


.plot (epoch seq, 
.plot (epoch seq, 


train accuracy, 'k--', label='Train Set') 


test accuracy, 'r-', labels'Test Set!) 


.title('Test Accuracy!) 
.xlabel ('Epochs') 
.ylabel ('Accuracy') 
DLL, 
DLE. 


legend(locs'upper left') 
show () 


9.23 ”工作 原理 


在 本 节 中 ， 我 们 创建 RNN 分 类 模型 预测 SMS 短 信 文 本 是 否 为 垃圾 短信 。 本 例 在 测试 集 上 的 训练 准确 度 为 86%。 图 9-3 是 测试 集 和 


训练 集 的 准确 度 和 损失 函数 图 。 


Test Accuracy Softmax Loss 


—- Train Set 
— Test Set 


Softmax Loss 


Epochs Epochs 


图 9-3 ”训练 集 和 测试 集 的 准确 度 图 (AB) 和 损失 函数 图 (4B) 


9.24 JERZY 


对 于 序列 数据 ， 强 烈 推 荐 对 训练 集 (全 部 数据 ) 进行 多 次 训练 (对 于 非 序 列 数据 也 推荐 这 样 处 理 ) 。 全 部 数据 进行 一 次 训练 称 为 
epoch。 同 时 强烈 建议 ， 在 每 个 epoch 之 前 进行 随机 shuffle 数 据 。 


9.3 ”用 TensorFlow 实 现 LSTM 模 型 


本 节 通 过 引入 LSTM 单 元 ， 将 RNN 模 型 扩展 为 可 以 处 理 长 序列 的 模型 。 


9.3.1 开始 


LSTM 递 归 神 经 网 络 是 传统 递归 神经 网 络 的 变种 。 访 时 间 递 归 神 经 网 络 可 以 解决 变 长 RNN 模 型 的 梯度 消失 或 者 爆炸 的 问题 。 为 了 
解决 梯度 问题 ，LSTM 单 元 引入 一 个 内 部 起 记 门 (forget gate) ， 该 门 操作 可 以 修改 一 个 单元 到 下 一 个 单元 的 信息 流转 。 为 了 清晰 前 
明 LSTM 递 归 神 经 网 络 是 如 何 工作 的 ， 我 们 将 逐步 分 析 LSTM 公 式 的 无 偏 版 本 。 第 一 步 ， 与 常规 的 RNN 模 型 一 样 : 


为 了 弄 明 白 什 么 信息 可 以 遗 扎 或 者 删除 ， 我 们 通过 下 面 的 公式 评估 候选 信息 。 这 些 信息 称 为 记忆 单元 : 


C, m tanh (Bch, —1 十 Acx) 


MERNE SCARE (forget matrix) 修改 可 选 的 记忆 单元 ， 其 计算 公式 如 下 : 


将 前 面 的 记忆 信息 与 遗 筷 记忆 结合 ， 然 后 与 可 选 的 记忆 单元 相 加 得 到 新 的 记忆 信息 : 


上 一 li 


结合 表面 的 所 有 项 获得 记忆 单元 的 输出 : 


O, — 0 (Boh, T ÁoX; T DoN;) 


之 后 ， 通 过 迭代 更 新 h， 计 算 公 陈 : 


LSTM 递 归 神 经 网 络 的 理念 是 通过 记忆 单元 挟 记 或 者 修改 输入 信息 。 


C K4 
UN 


“一 本 例 使 用 TensorFlow 的 一 大 好 处 是 ， 我 们 不 必 维 护 这 些 操 作 和 相关 的 反 向 传播 状态 。TensorFlow 会 维护 这 些 状态 信息 ， 并 根 
据 模 型 的 损失 函数 、 优 化 器 函数 和 学 习 率 计算 梯度 来 自动 更 新 模型 变量 值 。 


本 节 将 会 使 用 带 有 LSTM 结 构 的 序列 RNN 模 型 在 沙 士 比 亚 文 本 数据 集 上 训练 ， 预 测 下 一 个 单词 。 我 们 将 为 该 模型 传 入 短语 ( 比 
如 ，thou art more) ， 看 训练 的 模型 是 否 可 以 预测 出 短语 接 下 来 的 单词 。 


9.3.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 代 码 如 下 : 


import os 

import re 

import string 

import requests 

import numpy as np 

import collections 

import random 

import pickle 

import matplotlib.pyplot as plt 
import tensorflow as tf 


2. 开 始 计算 图 会 话 ， 并 设置 RNN 参 数 ， 代 码 如 下 : 


sess-tf.Session() 

# Set RNN Parameters 
min word freq = 5 
rnn size = 128 
epochs = 10 

batch size = 100 


learning rate = 0.001 
training seq len = 50 
embedding size = rnn size 


Save every - 500 

eval every - 50 

prime texts - ['thou art more', 'to be or not to', 'wherefore art 
E hou. 


3. 定 义 数据 和 模型 的 文件 夹 和 文件 名 。 我 们 将 保留 连 字 符 和 省 略 符 ， 因 为 沙 士 比 亚 频 繁 地 使 用 这 些 字 人 符 来 组 合 单词 和 音节 ， 代 码 
如 下 : 


data dir = 'temp' 
data file - 'shakespeare.txt' 
model path = 'shakespeare model' 


full model dir = os.path.join(data dir, model path) 

# Declare punctuation to remove, everything except hyphens and 
apostrophes 

punctuation = string.punctuation 

punctuation = ''.join([x for x in punctuation if x not in ['-', 


"tn]]) 


4. 下 载 文本 数据 集 。 如 果 该 数据 集 存 在 ,我们 将 直接 加 载 数据 ;如 果 不 存 在 ， 我 们 将 下 载 该 文本 数据 集 ， 并 保存 ， 代 码 如 下 : 


if not os.path.exists(full model dir): 
os.makedirs(full model dir) 

# Make data directory 

if not os.path.exists(data dir): 


os.makedirs (data dir) 
print ('Loading Shakespeare Data!) 
# Check if file is downloaded. 
if not os.path.isfile(os.path.join(data dir, data file)): 
print('Not found, downloading Shakespeare texts from www. 
gutenberg.org!) 


shakespeare url - 'http://www.gutenberg.org/cache/epub/100/ 
pg100.txt' 


# Get Shakespeare text 

response = requests .get (shakespeare url) 
shakespeare file = response.content 

# Decode binary into string 

s text = shakespeare file.decode('utf-8') 
# Drop first few descriptive paragraphs. 
s text = s text [7675:] 

# Remove newlines 

s text = s text.replace ('\r\n', '') 

s text = s text.replace ('\n', '') 


# Write to file 


with open(os.path.join(data dir, data file), 'w') as out conn: 
out conn.write(s text) 
else: 
# If file has been saved, load from that file 
with open(os.path.join(data dir, data file), 'r') as file 
conn: 


S text = file conn.read().replace('\n', '') 


5 ,清洗 莎士比亚 文本 ， 移 除 标点 符号 和 多 余 的 空格 ， 代 码 如 下 : 


s text re.sub(r'[{}]'.format (punctuation), ' ', s text) 


s text re.sub('\s+', ' ', s text ).strip().lower() 


6. 创 建 水 士 比 亚 词汇 表 。 我 们 创建 build_vocab () 返回 两 个 单词 字典 (单词 到 索引 的 映射 和 索引 到 单词 的 映射 )， 其 中 出 现 的 单 
词 要 符合 频次 要 求 ， 代 码 如 下 : 


def build vocab (text, min word freq): 
word counts = collections.Counter(text.split(' ')) 


# limit word counts to those more frequent than cutoff 


word counts = {key:val for key, val in word counts.items() if 
val>min word freq} 

# Create vocab --> index mapping 

words = word counts.keys () 

vocab to ix dict = {key:(ix+1) for ix, key in 


enumerate (words) } 
# Add unknown key --> 0 index 
vocab to ix dict['unknown'] =0 


# Create index --> vocab mapping 
ix to vocab dict = {val:key for key,val in vocab to ix dict. 
items () } 


return(ix to vocab dict, vocab to ix dict) 


ix2vocab, vocab2ix = build vocab(s text, min word freq) 


vocab size = len(ix2vocab) + 1 


a 
一 处 理 文本 时 ， 我 们 需要 注意 单词 索引 为 0 的 值 ， 将 其 保存 并 填充 。 对 于 未 知 单词 也 采取 相同 方法 处 理 。 


7. 有 了 单词 词汇 表 ， 我 们 将 沙 士 比 亚 文本 转换 成 泰 引 | 数组， 代码 如 下 : 


s text words = s text.split(' ') 
s text 1x = [] 
for ix, x in enumerate(s text words): 
Cry.: 
s text 1x.append(vocab21x [x] ) 
except: 
s text 1x.append (0) 
s text 1x = np.array(s text 1x) 
8. 本 例 将 展示 如 何 用 class 对 象 创建 算法 模型 。 我 们 将 使 用 相同 的 模型 (相同 模型 参数 ) 来 训练 批量 数据 和 抽样 生成 的 文本 。 如 果 


没有 class 对 象 ， 将 很 难 用 抽样 方法 训练 相同 的 模型 。 在 理想 情况 下 ， 该 class 代 码 单 独 保存 在 一 个 Python 文 件 中 ， 它 可 以 在 脚本 起 始 
位 置 导 入 ， 代 码 如 下 : 


class LSTM Model(): 


def init (self, rnn size, batch size, learning rate, 
training seq len, vocab size, infer -False): 
self.rnn size - rnn size 
self.vocab size - vocab size 
self.infer = infer 
self.learning rate - learning rate 
LE inter: 
self.batch size - 1 
self.training seq len - 1 
else: 


self.batch size - batch size 
self.training seq len - training seq len 


self.lstm cell = tf.nn.rnn cell.BasicLSTMCell(rnn size) 


self.initial state - self.lstm cell.zero state(self.batch 
size, tf.float32) 


self.x data - tf.placeholder(tf.int32, [self.batch size, 
self.training seq len]) 


self.y output - tf.placeholder(tf.int32, [self.batch size, 
self.training seq len]) 


with tf.variable scope('lstm vars') : 
# Softmax Output Weights 


W = tf.get variable('W', [self.rnn size, self.vocab 
size], tf.float32, tf.random normal initializer()) 
b - tf.get variable('b', [self.vocab size], 


tf.float32, tf.constant initializer(0.0)) 


# Define Embedding 


embedding mat - tf.get variable('embedding mat', 
[self.vocab size, self.rnn size], tf.float32, tf.random normal 
initializer()) 


embedding output - tf.nn.embedding lookup(embedding 
mat, self.x data) 


rnn inputs = tf.split(1, self.training seq len, 
embedding output) 
rnn inputs trimmed - [tf.squeeze(x, [1]) for x in rnn 
inputs] 
# If we are inferring (generating text), we add a 'loop' 


function 


# Define how to get the i«1 th input from the i th output 
def inferred loop(prev, count): 
prev transformed = tf.matmul(prev, W) + b 


prev symbol - tf.stop gradient(tf.argmax(prev 
transformed, 1)) 

output - tf.nn.embedding lookup(embedding mat, prev 
symbol) 

return (output) 


decoder - tf.nn.seq2seq.rnn decoder 

outputs, last state = decoder(rnn inputs trimmed, 
self.initial state, 
self.istm cell, 


loop function-inferred loop 
if infer else None) 


# Non inferred outputs 


output = tf.reshape(tf.concat(1, outputs), [-1, self.rnn 
size] ) 


# Logits and output 
self.logit output = tfi.matmul (output, W) + b 
self.model output = tf.nn.softmax(self.logit output) 


loss fun = tf.nn.seq2seq.sequence loss by example 


loss = loss fun([self.logit output], [tf.reshape(self.y_ 
output, [-1])], 


[tf.ones([self.batch size * self.training seq 
len])], 


self.vocab size) 


self.cost - tf.reduce sum(loss) / (self.batch size * self. 
training seq len) 


self.final state - last state 
gradients, = tf.clip by global norm(tf.gradients (self. 


cost, tf.trainable variables()), 4.5) 
optimizer - tf.train.AdamOptimizer(self.learning rate) 


self.train op = optimizer.apply gradients (zip (gradients, 
tf.trainable variables())) 


def sample(self, sess, words-ix2vocab, vocab-vocab2ix, num-10, 
prime text-'thou art'): 


state - sess.run(self.lstm cell.zero state(1, tf.float32)) 
word list - prime text.split() 
for word in word list[:-1]: 

x - np.zeros((1, 1)) 

x[0, 0] = vocab [word] 

feed dict = {self.x data: x, self.initial state:state] 


[state] = sess.run([self.final state], feed dict=feed_ 
dict) 


out sentence - prime text 
word = word list[-1] 
for n in range (num): 
x = np.zeros((1, 1)) 
x[0, 0] = vocab [word] 
feed dict = {self.x data: x, self.initial state:state} 


[model output, state] = sess.run([self.model output, 
self.final state], feed dict=feed dict) 


sample = np.argmax(model output[0]) 
if sample == 0: 

break 
word = words [sample] 


out sentence = out sentence + ' ' + word 
return (out sentence) 


9. 声 明 LSTM 模 型 及 其 测试 模型 。 使 用 tf.variable _ scope 管理 模型 变量 ， 使 得 测试 LSTM 模 型 可 以 复 用 训练 LSTM 模 型 相同 的 参数 ， 
代码 如 下 : 


with tf.variable scope('lstm model') as scope: 
# Define LSTM Model 


lstm model = LSTM Model (rnn size, batch size, learning rate, 


training seq len, vocab size) 
scope.reuse variables() 


test lstm model = LSTM Model (rnn size, batch size, learning 
rate, 


training seq len, vocab size, infer-True) 


10. 创 建 saver 操 作 ， 并 分 割 输入 文本 为 相同 的 批量 大 小 的 块 ， 然 后 切 始 化 模型 变量 ， 代 码 如 下 : 


saver = tf.train.Saver() 
# Create batches for each epoch 


num batches = int(len(s text ix)/(batch size * training seq len) ) 
+ 1 


# Split up text indices into subarrays, of equal size 
batches - np.array split(s text ix, num batches) 


# Reshape each split into [batch size, training seq len] 


batches - [np.resize(x, [batch size, training seq len]) for x in 
batches] 


# Initialize all variables 
init = tf.initialize all variables () 
sess.run(init) 


11. 现 在 通过 epoch 迭 代 训练 ， 并 在 每 个 epoch 之 前 将 数据 shuffle。 虽 然 文 本 数据 是 相同 的 ， 但 是 会 用 numpy.roll () 函数 改变 顺 
序 ， 代 码 如 下 : 


train loss = [] 
iteration count = 1 
for epoch in range (epochs): 
4 Shuffle word indices 
random.shuffle (batches) 
# Create targets from shuffled batches 
targets = [np.roll(x, -1, axis-1) for x in batches] 
# Run a through one epoch 
print ('Starting Epoch #{} of {}.'.format (epoch+1, epochs) ) 
# Reset initial LSTM state every epoch 
state = sess.run(lstm model.initial state) 
for ix, batch in enumerate (batches): 
training dict = {lstm model.x data: batch, lstm model.y 
output: targets [ix] } 
c, h = lstm_model.initial state 
training dict[c] = state.c 
training dict[h] = state.h 


temp loss, state, = sess.run([lstm model.cost, lstm 
model.final state, lstm model.train op], feed dict-training dict) 


train loss.append(temp loss) 


# Print status every 10 gens 
if iteration count % 10 == 0: 
summary nums - ( 
batches+1, temp loss) 


print('Iteration: {}, Epoch: {}, Batch: {} out of {}, 
Loss: (:.2f]'.format(*summary nums) ) 


iteration count, epoch+l, ix«1, num 


# Save the model and the vocab 
if iteration count % save every == 0: 
# Save model 
model file name - os.path.join(full model dir, 
'model ') 


saver.save(sess, model file name, global step - 
iteration count) 

print('Model Saved To: {}'.format (model file name)) 

# Save vocabulary 

dictionary file = os.path.join(full model dir, 'vocab. 
pk1l') 

with open(dictionary file, 'wb') as dict file conn: 


pickle.dump([vocab2ix, ix2vocab], dict file conn) 


o 


if iteration count $ eval every -- 


for sample in prime texts: 


print(test lstm model.sample(sess, ix2vocab, 


vocab2ix, num-10, prime text-sample)) 


iteration count += 1 


12. 输 出 结果 如 下 : 


Loading Shakespeare Data 

Cleaning Text 

Building Shakespeare Vocab 

Vocabulary Length - 8009 

Starting Epoch #1 of 10. 

Iteration: 10, Epoch: 1, Batch: 10 out 
Iteration: 20, Epoch: 1, Batch: 20 out 


Iteration: 1790, Epoch: 10, Batch: 161 
Iteration: 1800, Epoch: 10, Batch: 171 
thou art more than i am a 

to be or not to the man i have 
wherefore art thou art of the long 
Iteration: 1810, Epoch: 10, Batch: 181 


13. 绘 制 训 练 损失 随 epoch 的 趋势 图 ( 见 图 9-4) ， 代 码 如 下 : 


plt.plot(train loss, 'k-') 
plt.title('Sequence to Sequence Loss") 
plt.xlabel ('Generation' ) 
plt.ylabel('Loss') 

plt.show() 


of 182, Loss: 10.37 
of 182, Loss: 9.54 


out of 182, Loss: 5.68 
out of 182, Loss: 6.05 


out of 182, Loss: 5.99 


Sequence to Sequence Loss 


Loss. 


0 500 1000 1500 2000 
Generation 


图 9-4 模型 迭代 训练 的 Seq2 Seq 损 失 图 


9.3.3 ”工作 原理 


在 本 例 中 ， 我 们 基于 沙土 比 亚 词汇 构建 市 有 LSTM 结 构 的 RNN 模 型 预测 下 一 个 单词 。 通 过 增加 序列 大 小 、 降 低 学 习 率 ， 或 者 增加 
模型 的 epoch， 可 能 会 提高 该 模型 的 预测 效果 。 


9.3.4 ”延伸 学 习 


对 于 抽样 的 方法 ， 我 们 实现 的 是 贫 梦 抽样 法 。 贫 梦 抽 样 法 会 不 断 地 出 现 重 复 的 短语 。 例 如 ， 可 能 重复 地 说 “for the for the for 
the.…” 为 了 防止 出 现 该 问题 ， 我 们 实现 一 个 随机 抽样 单词 的 方法 ， 通 过 基于 输出 结果 的 logits 或 者 概率 分 布 进行 加 权 抽 样 。 


9.4 Stacking 多 个 LSTM Layer 


如 同 增加 神经 网 络 或 者 CNN 的 深度 一 样 ， 我 们 也 可 以 增加 RNN 的 深度 。 本 节 应 用 三 层 LSTM 促 进 水 士 比 亚 文 本 的 生成 。 


94.1 开始 


我 们 通过 Stacking 组 合 多 个 LSTM 层 增加 递归 神经 网 络 模型 的 深度 。 必 要 时 ,我们 可 以 将 目标 输出 作 力 输入 赋值 给 另外 一 个 网 
络 。 为 了 看 清 其 中 的 工作 原理 ， 这 里 以 两 层 网 络 举例 ， 见 图 9-5。 


targetl target2 «END» 


554 | 35588 
0 | SO-O-OFOFO 


tokenl token2 <END> tokenl token2 <END> 
图 9-5 ”在 前 一 幅 图 的 基础 上 ， 扩 展 一 层 RNN 为 两 层 


TensorFlow 使 用 MultiRNNCell () 国 数 轻松 地 实现 多 层 组 合 ， 访 函数 输入 参数 为 RNN 单 元 列表 。 用 Python 调用 
MultiRNNCell ([rnn cell]*num layers) 很 容易 创建 一 个 多 层 RNN。 


本 节 将 展示 前 一 节 中 相同 的 水 士 比 亚 文本 的 预测 。 但 是 本 例 有 两 个 变化 : 第 一 个 变化 是 采用 stacking 组 合 三 层 LSTM 代 蔡 原 有 的 
一 层 网 络 ; 第 二 个 变化 是 字符 级 别 的 预测 代替 单词 级 别 的 了 预测。 字符 级 别 的 预测 将 极 大 地 减少 词汇 表 ， 表 中 仪 有 40 个 字符 (26 个 字 


母 ，10 个 数字 ，1 个 空格 ，3 个 特殊 字符 ) 。 


9.4.2 ”动手 做 


为 了 不 重复 展示 和 上 一 节 相 同 的 代码 ， 本 例 只 解释 有 区 别 的 代码 。 完 整 源 代码 见 GitHub， 地 址 
73: https://github.com/nfmcclure/tensorflow_cookbook, 


1. 设 置 RNN 模 型 的 层 数 。 该 参数 放 在 脚本 起 始 位 置 ， 其 他 模型 参数 如 下 : 


num layers = 3 
min word freq = 5 
rnn Size - 128 


epochs = 10 


2. 第 一 个 主要 的 变化 是 ， 我 们 将 以 字符 来 加 载 、 处 理 和 传 入 文本 ， 而 不 是 单词 。 清 洗 完 文本 数据 之 后 ， 通 过 Python 的 list () 函数 
分 割 整个 文本 ， 代 码 如 下 : 


s text = re.sub(r'[(]l'.format(punctuation), ' ', s text) 
s text = re.sub('\s+', ' ', s text ).strip().lower() 

# Split up by characters 

char list = list(s text) 


3. 现 在 需要 改变 原 有 一 层 LSTM 模 型 为 多 层 。 接 收 num layers 变 量 ， 然 后 利用 TensorFlow 的 MultiRNNCell () 函数 创建 多 层 
RNN 模 型 ， 代 码 如 下 : 


class LSTM Model(): 
def | init (self, rnn size, num layers, batch size, learning 
rate, 
training seq len, vocab size, infer 

sample-False): 

self.rnn size - rnn size 

self.num layers - num layers 

self.vocab size - vocab size 

self.infer sample - infer sample 


self.learning rate - learning rate 


self.lstm cell tf.nn.rnn cell.BasicLSTMCell(rnn size) 
self.lstm cell - tf.nn.rnn cell.MultiRNNCell([self.lstm 
cell] * self.num layers) 


self.initial state - self.lstm cell.zero state(self.batch 
size, tf.float32) 


self.x data - tf.placeholder(tf.int32, [self.batch size, 
self.training seq lenl) 


self.y output = tf.placeholder(tf.int32, [self.batch size, 
self.training seq len] ) 


TensorFlow 的 MultiRNNCell () 函数 的 输入 参数 为 RNN 单 元 列表 。 本 例 中 的 RNN 层 是 相同 的 ， 但 是 你 也 可 以 采用 任何 RNN 层 
Stacking 组 合 。 


4. 其 他 代码 都 与 上 一 节 相 同 ， 这 里 不 再 袭 述 。 训 练 模型 输出 如 下 : 


Building Shakespeare Vocab by Characters 


Vocabulary Length 
Starting Epoch #1 of 10 


Iteration: 


Iteration: 


Iteration: 


9430, 


9440, 
9450, 


= 40 


Epoch: 
Epoch: 
Epoch: 


thou art more than the 


10, Batch: 
10, Batch: 
10, Batch: 


to be or not to the serva 


wherefore art thou dost thou 


Iteration: 


Iteration: 


Iteration: 


Iteration: 


9460, 
9470, 
9480, 
9490, 


5. 最 后 的 输出 文本 的 抽样 如 下 : 


Epoch: 
Epoch: 
Epoch: 
Epoch: 


10; Batch: 
10, Batch: 
10, Batch: 
10, Batch: 


thou art more fancy with 


to be or not to be for be 


wherefore art thou art thou 


6.42 BIB C CIE ERACEREN ( 见 图 9-6) ， 代 码 如 下 : 


plt 
plt 
plt 
plt 
plt 


.plot (train loss, 


'k-') 


.xlabel ('Generation' ) 
.ylabel ('Loss') 
. show () 


889 
899 
909 


> 
349 
257 
949 


out 
out 
out 


out 
out 
out 
out 


.title('Sequence to Sequence Loss!) 
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of 
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OT 
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Loss: 
Loss: 
Loss: 


Loss: 
Loss: 
Loss: 
Loss: 
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Loss 
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Generation 


图 9-6 % BLSTM RNN 模 型 的 迭代 训练 损失 图 


9.4.3 ”工作 原理 
TensorFlow 通 过 MultiRNNCell () 水 数 输入 RNN 单 元 列表 即 可 将 RNN 层 扩展 为 多 层 RNN。 本 节 使 用 的 沙 士 比 亚 文 本 数据 集 和 


上 一 节 相 同 ， 但 是 处 理 时 用 字符 而 不 是 单词 。 我 们 传 入 文本 数据 进入 三 层 LSTM 模 型 生成 沙土 比 亚 文 本 。 友 现在 迭代 训练 10 个 epoch 
后 ， 训 练 模 型 已 经 可 以 生成 吉英 语 的 单词 。 


9.5 ”用 TensorFlow 实 现 Seq2Seq 翻 译 模 型 


因为 每 个 RNN 单 元 都 有 输出 ， 所 以 我 们 能 训练 RNN 序 列 预测 变 长 的 序列 。 本 节 将 利用 该 特性 创建 壬 语 到 德语 的 翻译 模型 。 


9.5.1 开始 


本 书 将 构建 翻译 模型 将 天 语 翻 译 为 德语 。TensorFlow 目 市 模型 潍 数 来 进行 Seq2Seq 翻 译 模型 训练 。 我 们 将 介绍 如 何 训 | 练 翻译 模 
型 ， 并 在 英语 -德语 句子 上 应 用 。 语 料 数据 来 自 网 站 (http://www.manythings.org/) ，ZIP 格 陈 的 文件 。 访 数据 是 tab 键 分 割 的 贡 
语 -德语 句子 翻译 (例如 ，hello./t hallo) ， 由 成 干 上 万 个 变 长 句子 组 成 。 


9.5.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 


import 
import 
import 
import 
import 
import 
import 


OS 

string 

requests 

10 

numpy as np 
matplotlib.pyplot as plt 
tensorflow as tf 


from zipfile import ZipFile 


from collections import Counter 


from tensorflow.models.rnn.translate import seq2seq model 


sess = 


tf.Session() 


2. 设 置 模型 参数 。 学 习 率 设 为 0.1， 本 例 也 会 每 迭代 100 次 衰减 1% 的 学 习 率 ， 这 会 在 迭代 过 程 中 微调 算法 模型 。 设 置 截止 最 大 梯 
度 。RNN 大 小 为 500。 有 英语 和 德语 词汇 的 词 频 设 为 10000。 我 们 将 所 有 词汇 转 为 小 写 ， 并 移 除 标点 符号 。 将 德语 umlaut (元 音 变 
mB, 3、é、1、6 和 uw) 和 eszett (PXFZ, B) 转 为 字母 数 子 ， 归 一 化 德语 词汇 。 具 体 代码 如 下 : 


learning rate 


sd 


lr decay rate = 0.99 


lr decay every = 100 


max gradient - 5.0 
batch size - 50 


num layers 


I 
UJ 


rn size = 500 


layer size = 512 


generations = 10000 


vocab size - 10000 

save every - 1000 

eval every - 500 

output every - 50 

punct - string.punctuation 
data dir = 'temp' 

data file = 'eng ger.txt' 
model path = 'seq2seq model' 


full model dir = os.path.join(data dir, model path) 


3. 准 备 三 个 英文 句子 测试 翻译 模型 ， 看 下 训练 的 模型 效果 ， 代 码 如 下 : 


test english = ['hello where is my computer', 
'the quick brown fox jumped over the lazy dog', 
'is it going to rain tomorrow' ] 


4. 创 建 模型 文件 来。 检查 语 料 文件 是 否 已 下 载 ， 如 果 已 经 下 载 过 语 料 文件 ， 则 直接 读 取 文件 ;如 果 没 有 下 载 ， 则 下 载 并 保存 到 指 
定 文件 夹 ， 代 码 如 下 : 


if not os.path.exists(full model dir): 
os.makedirs(full model dir) 
4 Make data directory 
if not os.path.exists(data dir): 
os.makedirs (data dir) 
print('Loading English-German Data') 
# Check for data, if it doesn't exist, download it and save it 
if not os.path.isfile(os.path.join(data dir, data file)): 
print('Data not found, downloading Eng-Ger sentences from www. 
manythings.org') 
sentence url = 'http://www.manythings.org/anki/deu-eng.zip' 
r = requests.get (sentence url) 
z = ZipFile(io.BytesIO(r.content)) 


file = z.read('deu.txt') 

# Format Data 

eng ger data = file.decode() 

eng ger data = eng ger data.encode('ascii',errors-'ignore'"') 


eng ger data = eng ger data.decode().split('\n') 
# Write to file 
with open(os.path.join(data dir, data file), 'w') as out conn: 
for sentence in eng ger data: 
out conn.write(sentence + '\n') 
else: 
eng ger data = |] 
with open(os.path.join(data dir, data file), 'r') as in conn: 
for row in in conn: 
eng ger data.append(row[:-1]) 


3. 清洗 预 料 数据 集 ， 移 除 标点 符号 ， 分 割 句 子 中 的 英语 和 德语 ， 并 全 部 转 为 小 写 ， 代 码 如 下 : 


eng ger data = [''.join(char for char in sent if char not in 
punct) for sent in eng ger data] 


# Split each sentence by tabs 


eng ger data = [x.split('\t') for x in eng ger data if len(x)»-1] 
[english sentence, german sentence] - [list(x) for x in zip(*eng 
ger data) ] 

english sentence = [x.lower().split() for x in english sentence] 
german sentence = [x.lower().split() for x in german sentence] 


6. 创 建 身 语词 汇 表 和 德语 词汇 表 ， 其 中 词 频 都 要 求 至 少 10000。 不 符合 词 频 要 求 的 单词 标 为 0 (未 知 ) 。 大 部 分 低频 词 为 代词 (名 
字 或 者 地 名 ) 。 具 体 代 码 如 下 : 


all english words = [word for sentence in english sentence for 
word in sentence] 


all english counts - Counter(all english words) 
eng word keys - [x[0] for x in all english counts.most 
common (vocab size-1)] #-1 because O=unknown is also in there 


eng vocab2ix - dict(zip(eng word keys, range(1,vocab size))) 
eng ix2vocab = {val:key for key, val in eng vocab2ix.items() } 
english processed - [] 
for sent in english sentence: 
temp sentence = [] 
for word in sent: 
try: 
temp sentence.append(eng vocab2ix[word]) 
EXCEDL: 
temp sentence.append (0) 
english processed.append(temp sentence) 


all german words = [word for sentence in german sentence for word 
in sentence] o 

all german counts = Counter (all german words) 

ger word keys - [x[0] for x in all german counts.most 


common (vocab size-1)] 
ger vocab2ix = dict(zip(ger word keys, range(1,vocab size) ) ) 
ger ix2vocab = {val:key for key, val in ger vocab2ix.items() } 
german processed = [] 
for sent in german sentence: 
temp sentence - [] 
for word in sent: 
LIV 
temp sentence.append(ger vocab21ix [word] ) 
EXCEDE: 
temp sentence.append(0) 
german processed.append (temp sentence) 


7 预 处 理 测试 词汇 ， 将 其 写 入 词汇 索引 中 ， 代 码 如 下 : 


test data = [] 
for sentence in test english: 


temp sentence = | 
for word in sentence.split(' '): 
try: 


temp sentence .append (eng vocab21x [word] ) 


except: 


4 Use 'O!' if the word isn't in our vocabulary 
temp sentence.append(0) 
test data.append(temp sentence) 


8. 因 为 某 些 句子 太 长 或 者 太 短 ， 所 以 我 们 为 不 同 长 度 的 句子 创建 单独 的 模型 。 做 这 些 的 原因 之 一 是 最 小 化 短 句 子 中 填充 字符 的 影 
响 。 解 决 该 问题 的 万 法 之 一 是 将 相似 长 度 的 句子 分 桶 处 理 。 我 们 为 每 个 分 桶 设置 长 度 沁 围 ， 这 样 相似 长 度 的 句子 束 会 进入 同一 个 分 


桶 ， 代 码 如 下 : 
x maxs = [5, 7, 11, 50] 
y maxs = [10, 12, 17, 60] 
buckets - [x for x in zip(x maxs, y maxs)] 
bucketed data = [[] for | in range(len(x maxs) ) ] 


for eng, ger in zip(english processed, german processed): 
for ix, (x max, y max) in buckets: 
if (len(eng) <= x max) and (len(ger) <= y max): 
bucketed data [ix] .append([eng, ger] ) 
break 
9. 将 上 述 参数 传 入 TensorFlow 内 建 的 Seq2Seq 模 型 。 创 建 translation_model () 函数 保证 训练 模型 和 测试 模型 可 以 共享 相同 的 
Se, (ASME: 
def translation model (sess, input vocab size, output vocab size, 
buckets, rnn size, num layers, max gradient, 
learning rate, lr decay rate, forward only): 
model = seq2seq model.Seq2SeqModel ( 
input vocab size, 
output vocab size, 
buckets, 
rnn size, 
num layers, 
max gradient, 
batch size, 


learning rate, 
lr decay rate, 
forward only-forward only, 
dtype-tf.float32) 
return (model) 


10. 创 建 训练 模型 ， 使 用 tf.variable_scope 管 理 模型 变量 ， 声 明 训 练 模型 的 变量 在 scope 范 围 内 可 重用 。 创 建 测试 模型 ， 其 批量 大 


小 为 1， 代 码 如 下 : 


input vocab size = vocab size 
output vocab size - vocab size 
with tf.variable scope('translate model') as scope: 
translate model - translation model(sess, vocab size, vocab 
size, 
buckets, rnn size, num 
layers, 
max gradient, learning 
race, 
lr decay rate, False) 
#Reuse the variables for the test model 
scope.reuse variables () 
test model = translation model (sess, vocab size, vocab size, 


buckets, rnn size, num layers, 
max gradient, learning rate, 
lr decay rate, True) 

test model.batch size - 1 


11. 初 始 化 模型 变量 ， 代 码 如 下 : 
init = tf.initialize all variables() 


sess.run(init) 


12. 调 用 step () 函数 迭代 训练 Seq2Sseq 模 型 。TensorFlow 的 Seq2seq 模 型 有 get_batch () REX, REALM 3285 DX 
批量 句子 。 衰 减 学 习 率 ， 保 仔 3eq2seqg 训 练 模 型 ， 并 利用 测试 句子 进行 模型 评估 。 具 体 代 码 如 下 : 


train loss = [] 
for i in range (generations): 
rand bucket ix = np.random.choice(len(bucketed data) ) 


model outputs = translate model.get batch(bucketed data, rand_ 
bucket ix) 
encoder inputs, decoder inputs, target weights - model outputs 


# Get the (gradient norm, loss, and outputs) 
_, Step loss, = translate model.step(sess, encoder inputs, 
decoder inputs, target weights, rand bucket ix, False) 


# Output status 
if (i41) % output every == 0: 
train loss.append(step loss) 
print('Gen #{} out of {}. Loss: {:.4}'.format (i+1, 
generations, step loss) ) 


# Check if we should decay the learning rate 
if (i+1) $ lr decay every == 
sess.run(translate model.learning rate decay op) 


# Save model 
if (i41) % save every == 0: 
print('Saving model to {}.'.format (full model dir)) 
model save path - os.path.join(full model dir, "eng ger 
translation.ckpt") 
translate model.saver.save(sess, model save path, global 
step-i) 


# Eval on test set 
if (i41) % eval every == 0: 
for ix, sentence in enumerate(test data): 
# Find which bucket sentence goes in 
bucket id = next (index for index, val in enumerate(x 
maxs) if val>=len(sentence) ) 
# Get RNN model outputs 
encoder inputs, decoder inputs, target weights - test 
model.get batch ( 
{bucket id: [(sentence, [])]}, bucket id) 


# Get logits 


_, test loss, output logits = test model.step(sess, 
encoder inputs, decoder inputs, target weights, bucket id, True) 
ix output = [int(np.argmax(logit, axis-1)) for logit 


in output logits] 

# If there is a 0 symbol in outputs end the output 
there. 

ix output = ix output[0:[ix for ix, x in enumerate(ix 
output+[0]) if x==0] [01] 

# Get german words from indices 

test german = [ger ix2vocab[x] for x in ix output] 

print ('English: {}'.format (test english[ix] ) ) 

print ('German: {}'.format (test german) ) 


13. 下 面 是 输出 结果 : 


Gen #0 out of 10000. Loss: 7.377 
Gen 49800 out of 10000. Loss: 3.875 
Gen #9850 out of 10000. Loss: 3.748 
Gen 49900 out of 10000. Loss: 3.615 
Gen 49950 out of 10000. Loss: 3.889 
Gen #10000 out of 10000. Loss: 3.071 
Saving model to temp/seq2seq model. 
English: hello where is my computer 


German: ['wo', 'ist', 'mein', 'ist'] 
English: the quick brown fox jumped over the lazy dog 
German: ['die', 'alte', 'ist', 'von', 'mit', 'hund', '‘'zu'] 


English: is it going to rain tomorrow 
German: ['ist', 'es', 'morgen', 'kommen!] 


14. 使 用 matplotlib 模 块 绘制 训练 损失 图 ( 见 图 9-7) ， 代 码 如 下 : 


loss generations = [i for i in range(generations) if i$output 
every==0] 
plt.plot(loss generations, train loss, 'k-') 


plt.title('Sequence to Sequence Loss') 
plt.xlabel ('Generation' ) 
plt.ylabel('Loss') 

plt.show() 


9.5.3 工作 原理 


本 节 使 用 TensorFlow 内 建 的 Seq2Seq 模 型 将 英语 翻译 为 德语 。 


昌 锥 我 们 的 测试 句子 并 没有 得 到 很 好 的 翻译 效果 ， 但 是 仍 有 提升 的 空间 。 如 果 模 型 训练 时 间 加 长 ， 改 变 分 桶 策略 ， 融 可 以 提高 翻 
译 水 平 。 


9.5.4 JERZY 


在 manythings 网 站 上 也 有 其 他 语言 的 双语 语料库 (http://www.manythings.org/anki/) ， 读 者 可 以 下 载 使 用 其 他 语料库 。 


Sequence to Sequence Loss 


B 


0 2000 4000 F000 apog 10000 
Generation 


图 9-7 Seq2Seq 翻 译 模型 (英语 翻译 为 德语 ) 迭代 训练 10000 次 的 损失 趋势 图 


9.6 TensorFlow 实 现 变 生 RNN 预 测 相似 度 
相对 于 其 他 得 法 模型 来 讲 ，RNN 模 型 的 一 大 优点 就 是 能 处 理 变 长 的 序列 数据 。 利 用 该 特性 以 及 其 可 以 生成 全 新 的 序列 数据 ， 我 们 


能 创建 方法 大 量 输入 序列 和 另外 的 序列 之 间 的 相似 度 。 本 闻 将 训练 认 生 相似 度 RNN 模 型 度量 记录 地 址 之 间 的 相似 度 。 


9.6.1 开始 


在 本 节 中 ， 我 们 将 构建 一 个 双向 RNN 模 型 ， 加 入 一 个 全 联接 层 ， 全 联接 层 输 出 固定 长 度 的 数值 型 向 量 。 我 们 创建 一 个 双 同 RNN 
Ex, 输入 地 址 ， 并 将 输出 传 入 全 联接 层 ， 该 全 联接 层 输 出 固定 长 度 的 数值 型 向 量 (长 度 为 100) 。 然 后 比较 两 个 向 量 输出 的 余弦 相似 


度 ， 其 值 在 -1 和 1 之 间 。 输 入 数据 与 目标 相似 则 为 1， 否 则 为 -1。 人 余弦 距 离 的 预测 仅仅 为 输出 结果 的 符号 值 ( 负 值 意 味 着 不 相似 ， 正 值 
意味 着 相似 ) 。 我 们 能 利用 该 网 络 进行 记录 匹配 ， 取 基准 地 址 与 查询 地 址 之 间 余 弦 距 离 最 高 的 。 图 9-8 是 网 络 架构 图 。 


po Similarity i a 
Fully Connected Layer Fully Connected Layer 


该 模型 的 优点 是 ， 
否 能 匹配 相似 的 地 址 。 


9.6.2 动手 做 


KJ9-8 迹 生 RNN 相 似 度 模型 的 架构 图 


可 以 接受 从 未 见 过 的 地 址 并 进行 比较 ， 输 出 -1 到 1。 我 们 将 在 代码 中 选择 从 未 见 过 的 地 址 进行 测试 ， 查 看 模型 是 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 : 


import 
import 
import 
import 
import 
import 


OS 

random 

string 

numpy as np 
matplotlib.pyplot as plt 
tensorflow as tf 
tf.Session() 


数 ， 代 码 如 下 : 


batch size = 200 
n batches - 300 
max address len - 20 


margin 


= 0.25 


num features - 50 


dropout keep prob - 0.8 


3. 创 建 一 个 李 生 RNN 相 似 度 模型 类 ， 代 码 如 下 : 


def snn(address1, address2, dropout keep prob, 
vocab size, num features, input length): 


# Define the siamese double RNN with a fully connected layer 
at the end 
def siamese nn(input vector, num hidden): 
cell unit = tf.nn.rnn cell.BasicLSTMCell 


# Forward direction cell 

lstm forward cell = cell unit (num hidden, forget bias-1.0) 

lstm forward cell - tf.nn.rnn cell.DropoutWrapper (lstm 
forward cell, output keep prob-dropout keep prob) i 


# Backward direction cell 

lstm backward cell = cell unit (num hidden, forget _ 
bias-1.0) 

lstm backward cell tf.nn.rnn cell.DropoutWrapper(lstm 
backward cell, output keep prob=dropout keep prob) 


# Split title into a character sequence 

input embed split = tf.split(1, input length, input 
vector) E " E " 

input embed split - [tf.squeeze(x, squeeze dims-[1]) for x 
in input embed split] 


# Create bidirectional layer 


outputs, + _ = tf.nn.bidirectional rnn(lstm forward cell, 
lstm backward 


cell, 
input embed split, 
dtype-tf.float32) 
4 Average The output over the sequence 
temporal mean - tf.add n(outputs) / input length 
4 Fully connected layer 
output size - 10 
A - tf.get variable(name-"A", shape-[2*num hidden, output 
size], 


dtypestf.float32, 
initializer-tf.random normal 
initializer(stddev-0.1)) i i 
b = tf.get variable(name-"b", shape-[output size], 
dtype=tf.float32, i i 
initializer-tf.random normal 
initializer (stddev=0.1) ) " p 


final output = tf.matmul (temporal mean, A) + b 
final output = tf.nn.dropout (final output, dropout keep | 
prob) 
return (final output) 
with tf.variable scope("siamese") as scope: 


outputl = siamese nn(addressl, num features) 

# Declare that we will use the same variables on the 
second string 

scope.reuse variables ( ) 

output2 = siamese nn(address2, num features) 


# Unit normalize the outputs 

outputl = tf.nn.12 normalize(output1, 1) 

output2 = tf£.nn.12 normalize(output2, 1) 

# Return cosine distance 

# in this case, the dot product of the norms is the same. 
dot prod = tf.reduce sum(tf.mul(outputi1, output2), 1) 


return (dot prod) 


& A 
\ 使 用 tf.vatiable_scope 可 在 Siamese 网 络 的 两 个 部 分 共享 变量 和 参数。 注意 ， 余 弦 距 离 是 归 一 化 向 量 的 点 积 。 


4. 声 明 预 测 尔 数 ， 该 冰 数 是 余弦 距离 的 符号 值 ， 代 码 如 下 : 


def get predictions (scores): 
predictions = tf.sign(scores, name="predictions") 
return (predictions) 


5. 声 明 损失 函数 。 我 们 希望 为 error 预 留 一 个 margin (类 似 于 SVM 模型 ) 。 损 失 函 数 项 中 包括 正 损失 和 负 损 失 。 具 体 代码 如 下 : 


def loss (scores, y target, margin): 
# Calculate the positive losses 
pos loss term = 0.25 * tf.square(tf.sub(1., scores)) 
pos mult = tf.cast(y target, tf.float32) 


# Make sure positive losses are on similar strings 
positive loss - tf.mul(pos mult, pos loss term) 


# Calculate negative losses, then make sure on dissimilar 
strings 
neg mult = tf.sub(1., tf.cast(y target, tf.float32)) 


negative loss - neg mult*tf.square(scores) 


# Combine similar and dissimilar losses 
loss - tf.add(positive loss, negative loss) 


# Create the margin term. This is when the targets are 0., 
and the scores are less than m, return 0 . 


# Check if target is zero (dissimilar strings) 

target zero = tf.equal(tf.castí(y target, tf.float32), 0.) 

# Check if cosine outputs is smaller than margin 

less than margin - tf.less(scores, margin) 

# Check if both are true 

both logical - tf.logical and(target zero, less than margin) 

both logical = tf.cast (both logical, tf.float32) 

# If both are true, then multiply by (1-1)=0. 
multiplicative factor - tf.cast(1. - both logical, tf.float32) 
total loss = tf.mul (loss, multiplicative factor) 


# Average loss over batch 
avg loss - tf.reduce mean(total loss) 


return(avg loss) 
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def accuracy(scores, y target): 
predictions = get predictions (scores) 
correct predictions = tf.equal (predictions, y target) 


accuracy = tf.reduce mean(tf.cast (correct predictions, 
tf.float32)) 


return (accuracy) 


7. 使 用 基准 地 址 创建 有 “打印 错误 ”的 相似 地 址 ， 代 码 如 下 : 


def create typo (s): 


rand ind = random.choice (range (len(s) ) ) 
s list = list(s) 


s list[rand ind]-random.choice(string.ascii lowercase + 
'0123456789') 


s = ''.jJoin(s list) 
return (s) 


8. 将 街道 号 、 街 道 名 和 街道 后 缀 随机 组 合生 成 数据 。 街 道 名 和 街道 后 缀 的 列表 如 下 : 


street names = ['abbey', 'baker', 'canal', 'donner', 'elm', 
'fifth', 'grandvia', 'hollywood', 'interstate', 'jay', 'kings'] 
street types = ['rd', 'st', 'ln', 'pass', 'ave', 'hwy', 'cir', 
Lae, TOL] 


9. 生 成 测试 查询 地 址 和 基准 地 址 ， 代 码 如 下 : 


test queries = ['111 abbey ln', '271 doner cicle', 

'314 king avenue', 'tensorflow is fun'] 
test references = ['123 abbey ln', '217 donner cir', '314 kings 
ave', '404 hollywood st', 'tensorflow is so fun'] 


(QW 
一 最 后 的 查询 和 基准 地 址 对 于 本 例 模 型 来 说 都 未 见 过 ,但 是 我 们 希望 模型 能 识别 出 它们 的 相似 性 。 


10. 定 义 如 何 生 成 批量 数据 。 本 例 的 批量 数据 是 一 半 相 似 的 地 址 (基准 地 址 和 “打印 错误 ”地 址 ) 和 一 半 不 相似 的 地 址 。 不 相似 的 
地 址 是 通过 读 取 地 址 列表 的 后 半 部 分 ， 并 使 用 numpy.roll () 负数 将 其 向 右 循 环 移动 1 位 获取 的 ， 代 码 如 下 : 


def get batch(ín): 


H Generate a list of reference addresses with similar 
addresses that have 


# a typo. 

numbers = [random.randint(1, 9999) for i in range (n)] 

streets = [random.choice(street names) for i in range (n)] 

street suffs = [random.choice(street types) for i in range(n) ] 

full streets = [str(w) + ' ' +x + ' ' + y for w,x,y in 
Zip(numbers, streets, street suffs) ] 

typo streets = [create typo(x) for x in full streets] 

reference = [list(x) for x in zip(full streets, typo streets) ] 


4 Shuffle last half of them for training on dissimilar 
addresses 


half ix = int(n/2) 

bottom half - reference[half ix:] 

true address - [x[0] for x in bottom half] 
typo address - [x[1] for x in bottom half] 
typo address = list(np.roll(typo address, 1)) 


bottom half = [[x,y] for x,y in zip(true address, typo 
address)] 


reference[half ix:] - bottom half 

# Get target similarities (1's for similar, -1's for non- 
similar) 

target = [1]*(n-half ix) + [-1]*half ix 

reference = [[x,y] for x,y in zip(reference, target) ] 


return (reference) 


11. 定 义 地 址 词汇 表 ， 以 及 如 何 将 地 址 one-hot 编 码 为 索引 ， 代 码 如 下 : 


vocab chars = string.ascii lowercase + '0123456789 ' 


vocab2ix dict = (char:(ix«1) for ix, char in enumerate(vocab _ 
chars)] 


vocab length = len(vocab chars) + 1 


# Define vocab one-hot encoding 
def address2onehot (address, 
vocab2ix dict - vocab2ix dict, 
max address len - max address len): 
4 translate address string into indices 
address ix = [vocab2ix dict[x] for x in list(address) ] 


# Pad or crop to max address len 


address ix = (address ix + [0]*max address len) [0:max address | 
len] 


return(address ix) 
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addressl ph = tf.placeholder(tf.int32, [None, max address len], 
name-"address1 ph") 


address2 ph - tf.placeholder(tf.int32, [None, max address len], 
name-"address2 ph") 


y target ph - tf.placeholder(tf.int32, [None], name-"y target ph") 


dropout keep prob ph - tf.placeholder(tf.float32, name-"dropout 
keep prob") 


# Create embedding lookup 

identity mat - tf.diag(tf.ones(shape-[vocab length])) 

addressl embed = tf.nn.embedding lookup (identity mat, address1 ph) 
address2 embed = tf.nn.embedding lookup(identity mat, address2 ph) 


13. 声 明 算法 模型 、 准 确 度 、 损 失 函 数 和 预测 操作 ， 代 码 如 下 : 


# Define Model 
text snn = model.snn(addressl embed, address2 embed, dropout keep _ 
prob ph, 
vocab length, num features, max address len) 
# Define Accuracy 
batch accuracy - model.accuracy(text snn, y target ph) 
# Define Loss 
batch loss - model.loss(text snn, y target ph, margin) 
# Define Predictions 
predictions - model.get predictions(text snn) 


14. 在 开始 训练 模型 之 前 ， 增 加 优化 器 立 数 ， 初 始 化 变量 ， 代 码 如 下 : 


# Declare optimizer 

optimizer = tf.train.AdamOptimizer (0.01) 

# Apply gradients 

train op = optimizer.minimize (batch loss) 
# Initialize Variables 

init = tf.global variables initializer () 

sess.run(init) 
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train loss vec = [] 

train acc vec = [] 

for b in range(n batches): 
# Get a batch of data 
batch data = get batch(batch size) 
# Shuffle data 
np.random.shuffle(batch data) 
# Parse addresses and targets 


input addresses = [x[0] for x in batch data] 

target similarity - np.array([x[1] for x in batch data]) 

addressl = np.array([laddress2onehot(x[0]) for x in input _ 
addresses]) 

address2 = np.array([laddress2onehot(x[1]) for x in input 
addresses]) 


train feed dict = {addressl ph: address1, 
address2 ph: address2, 
y target ph: target similarity, 
dropout keep prob ph: dropout keep prob] 


_, train loss, train acc = sess.run([train op, batch loss, 
batch accuracyl, 
feed dict-train feed dict) 
4 Save train loss and accuracy 
train loss vec.append(train loss) 
train acc vec.append(train acc) 


16. 训 练 模型 之 后 ， 我 们 处 理 测试 查询 和 基准 地 址 来 查看 模型 效果 ， 代 码 如 下 : 


test queries 1x = np.array([address2onehot(x) for x in test 
queries]) 
test references ix = np.array([address2onehot (x) for x in test _ 
references]) 
num refs = test references ix.shape [0] 
best fit refs = [] 
for query in test queries 1x: 
test query = np.repeat(np.array([query]), num refs, axis=0) 
test feed dict = {addressl ph: test query, 
address2 ph: test references 1x, 
y target ph: target similarity, 
dropout keep prob ph: 1.0} 
test out = sess.run(text snn, feed dict=test feed dict) 
best fit = test references [np.argmax(test out) J 
best fit refs.append(best fit) 
print ('Query Addresses: {}!'.format (test queries) ) 
print ('Model Found Matches: {}!'.format (best fit refs) ) 


17. 输 出 结果 如 下 : 
Query Addresses: ['111 abbey ln', '271 doner cicle', '314 king 
avenue', 'tensorflow is fun'] 
Model Found Matches:['123 abbey ln', '217 donner cir', '314 kings 
ave', 'tensorflow is so fun'] 


9.6.3 ”延伸 学 习 


从 测试 查询 和 基准 地 址 可 以 看 出 ， 训 练 的 模型 不 仪 能 判别 正确 的 基准 地 址 ， 也 可 以 生成 非 地 址 词语 。 通 过 训练 模型 的 损失 和 准确 
度 来 看 下 模型 的 效果 ( 见 图 9-9) 。 


Accuracy and Loss of Siamese RNN 


Accuracy and Loss 


— Batch Loss 


Batch Accuracy | 
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Iterations 


图 9-9” 迹 生 RNN 相 似 度 模 型 训练 的 准确 度 和 损失 趋势 图 


注意 ， 本 例 没有 指定 测试 集 来 练习 ， 因 为 本 例 是 生成 数据 。 我 们 创建 批量 函数 每 次 创建 新 的 批量 数据 ， 所 以 模型 输入 的 都 是 新 数 
据 ， 用 批量 损失 和 准确 度 代 蔡 测 试 损失 和 准确 度 。 但 是 对 于 实际 的 有 限 数据 集 来 齐 ， 并 不 一 定 都 正确 ， 所 以 我 们 需要 训练 集 和 测试 集 
来 评估 模型 效果 。 


第 10 曹 TensorFlow 产 品 化 


本 章 将 介绍 以 下 知识 点 : 
- TensotFlow 的 单元 测试 
TensorFlow 的 多 设备 使 用 
- 分 布 式 TensotrFlow 实 践 
: TensotFlow 产 品 化 开发 提示 


- TensorFlow 产 品 化 的 实例 


到 目前 为 止 ， 我 们 履 镭 了 如 何 使 用 TensorFlow 训 练 和 评估 各 种 模型 。 本 章 将 展示 如 何 编写 产品 化 使 用 的 代码 。 产 品级 代码 的 定义 


有 很 多 ， 这 里 我 们 将 产品 级 代码 定义 为 有 蛙 元 测试 ， 分 开 训 练 和 评估 代码 ， 有 效 地 存储 和 加 载 数据 管道 中 各 种 所 需 的 部 分 以 及 创建 计 
算 图 会 话 。 
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六 一 本 章 提 供 的 Python 脚本 需 在 命令 行 运行 。 测 试 运行 后 会 在 屏幕 上 打印 日 志 。 


10.2 TensorFlow 的 单元 测试 


测试 代码 使 得 原型 设计 更 快 、 调 试 更 有 效 、 调 整 更 快 、 代 码 分 享 也 更 容易 。 本 节 TensorFlow 的 单元 测试 实现 相当 容易 。 


10.2.1 开始 
当 编 写 一 个 TensorFlow 模 型 时 ， 单 元 测试 帮助 我 们 测试 代码 功能 。 当 我 们 想 调整 代码 单元 时 ， 测 试 确保 这 些 改变 不 会 破坏 模型 。 
本 节 将 在 MNIST 数 据 集 上 创建 一 个 简单 的 CNN 了 网 络 ， 并 实现 三 种 不 同 的 单元 测试 来 介绍 如 何在 TensorFlow 中 编写 单元 测试 \。 


Python 有 一 个 名 为 Nose 的 测试 库 。TensorFlow 也 有 内 建 的 测试 负数 ， 我 们 将 展示 如 何 使 用 这 些 冰 数 测试 张 量 对 和 象 的 值 ， 并 且 没 
有 在 计算 图 会 话 中 评估 该 值 。 


1. 导 入 必要 的 编程 库 ， 并 格式 化 数据 集 ， 代 码 如 下 : 


import numpy as np 
import tensorflow as tf 


from tensorflow.contrib.learn.python.learn.datasets.mnist import 
read data sets 


from tensorflow.python.framework import ops 

ops.reset default graph() 

# Start a graph session 

sess = tf.Session() 

# Load data 

data dir = 'temp' 

mnist = read data sets(data dir) 

# Convert images into 28x28 (they are downloaded as 1x784) 


train xdata = np.array([np.reshape(x, (28,28)) for x in mnist. 
train.images]) 

test xdata - np.array([np.reshape(x, (28,28)) for x in mnist.test. 
images] ) 


# Convert labels into one-hot encoded vectors 
train labels - mnist.train.labels 

test labels - mnist.test.labels 

# Set model parameters 

batch size - 100 

learning rate - 0.005 

evaluation size - 100 

image width = train xdata [0] .shape [0] 

image height = train xdata [0] .shape [1] 

target size = max(train labels) + 1 

num channels = 1 # greyscale = 1 channel 
generations - 100 

eval every - 5 

s 

50 

2 4 NxN window for 1st max pool layer 


convl features 
conv2 features 


max pool sizel 


max pool size2 = 2 # NxN window for 2nd max pool layer 
fully connected sizel - 100 
dropout prob = 0.75 


2. 声 明 模 型 的 占 位 待 、 变 量 和 模型 表达 式 ， 代 码 如 下 : 


# Declare model placeholders 

x input shape - (batch size, image width, image height, num 
channels) 

x input - tf.placeholder(tf.float32, shape-x input shape) 

y target - tf.placeholder(tf.int32, shape-(batch size)) 

eval input shape - (evaluation size, image width, image height, 
num channels) 

eval input = tf.placeholder(tf.float32, shape=eval input shape) 


eval target - tf.placeholder(tf.int32, shape-(evaluation size)) 
dropout = tf.placeholder(tf.float32, shape-()) 
# Declare model parameters 


convl weight = tf.Variable(tf.truncated normal([4, 4, num. 
channels, convi features], 

stddev=0.1, 
dtype-tf.float32)) 
convl bias = tf.Variable(tf.zeros([convi features], dtype-tf. 
£10at32)) 
conv2 weight = tf.Variable(tf.truncated normal([4, 4, convi 
features, conv2 features], 

stddev=0.1, 
dtype-tf.float32)) 
conv2 bias - tf.Variable(tf.zeros([conv2 features], dtype-tf. 
float32) ) 
# fully connected variables 
resulting width = image width // (max pool sizel * max pool size2) 
resulting height = image height // (max pool sizel * max pool _ 


size2) 
fulll input size = resulting width * resulting height * conv2 
features E E E E 
fulll weight = tf.Variable(tf.truncated normal ([full1l input size, 
fully connected sizel], 
stddev=0.1, dtype-tf.float32)) 

fulll bias = tf.Variable(tf.truncated normal([fully connected _ 
sizel], stddev=0.1, dtype-tf.float32)) 
full2 weight = tf.Variable(tf.truncated normal([fully connected 
sizel, target size], 

stddev=0.1, 
dtype-tf.float32)) 
full2 bias = tf.Variable(tf.truncated normal([target size], 
stddev=0.1, dtype-tf.float32)) 
# Initialize Model Operations 
def my conv net (input data): 

# First Conv-ReLU-MaxPool Layer 


convl = tf.nn.conv2d(input data, convl weight, strides-[1, 1, 
1. 11. vaddina='SAME' ) 
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relul = tf.nn.relu(tf.nn.bias add(convi, convi bias)) 
max pooll = tf.nn.max pool(relul, ksize-[1, max pool sizel, 
max pool sizel, 1l, i i i 
strides-[1, max pool sizel, max 
pool sizel, 1], padding='SAME' ) i i i 
# Second Conv-ReLU-MaxPool Layer 


conv2 = tf.nn.conv2d(max pooll, conv2 weight, strides-[1, 1, 
1, 1], padding-'SAME!) 

relu2 - tf.nn.relu(tf.nn.bias add(conv2, conv2 bias)) 

max pool2 = tf.nn.max pool(relu2, ksize-[1, max pool size2, 


max pool size2, 1], 
strides-[1, max pool size2, max 
pool size2, 1], padding='SAME' ) 
4 Transform Output into a 1xN layer for next fully connected 
layer 
final conv shape = max pool2.get shape().as list() 


final shape = final conv shape[1] * final conv shape[2] * 
final conv shape[3] 

flat output = tf.reshape(max pool2, [final conv shape[l[0], 
final shape] ) 

# First Fully Connected Layer 

fully connected1 = tf.nn.relu(tf.add(tfi.matmul (flat output, 
fulll weight), fulll bias) ) 

# Second Fully Connected Layer 

final model output = tf.add(tf£.matmul (fully connected1, full2 
weight), full2 bias) 


# Add dropout 
final model output = tfi.nn.dropout (final model output, 
dropout) 


return (final model output) 
model output = my conv net (x input) 


test model output = my conv net (eval input) 


3. 创 建 损失 函数 、 预 测 和 准确 度 操 作 ， 然 后 初始 化 模型 变量 ， 代 码 如 下 : 


# Declare Loss Function (softmax cross entropy) 
loss - tf.reduce mean(tf.nn.sparse softmax cross entropy with 
logits (model output, y target) ) 
# Create a prediction function 
prediction = tf.nn.softmax(model output) 
test prediction - tf.nn.softmax(test model output) 
4 Create accuracy function 
def get accuracy(logits, targets): 
batch predictions = np.argmax(logits, axis-1) 
num correct = np.sum(np.equal (batch predictions, targets) ) 
return(100. * num correct/batch predictions.shape [0] ) 
# Create an optimizer 
my optimizer = tf.train.MomentumOptimizer (learning rate, 0.9) 
train step = my optimizer.minimize (loss) 
# Initialize Variables 
init = tf.initialize all variables () 
sess.run(init) 


4. 使 用 tf.test.TestCase () 类 来 测试 占 位 符 或 者 变量 的 值 。 在 本 例 中 ， 我 们 确保 dropout 概 率 大 于 0.25， 代 码 如 下 : 


# Check values of tensors! 
class drop out test(tf.test.TestCase): 
4 Make sure that we don't drop too much 
def dropout greaterthan(self): 
with self.test session(): 
self.assertGreater(dropout.eval(), 0.25) 


5. 测 试 准确 度 函 数 的 功能 正确 。 我 们 按 预 期 创建 一 个 样 例 数组 ， 测 试 返回 100% 的 准确 度 ， 代 码 如 下 : 


# Test accuracy function 
class accuracy test(tf.test.TestCase): 
4 Make sure accuracy function behaves correctly 
def accuracy exact test(self): 
with self.test session(): 
test preds - [[0.9, 0.1],[0.01, 0.99]] 
test targets = [0, 1] 
test acc - get accuracy(test preds, test targets) 
self.assertEqual(test acc.eval(), 100.) 


6. 测 试 张 量 的 形状 符合 预期 。 测 试 模 型 输出 结果 是 预期 的 [batch_size，target_size] 形 状 ， 代 码 如 下 : 


# Test tensorshape 
class shape test (tfi.test.TestCase) : 
# Make sure our model output is size [batch size, num classes] 
def output shape test (self): 
with self.test session(): 
numpy array - np.ones([batch size, target sizel) 
self.assertShapeEqual (numpy array, model output) 


7. 为 了 运行 测试 ， 我 们 只 需要 执行 下面 的 命令 ， 并 紧 跟 其 后 的 迭代 训练 ， 代 码 如 下 : 


# Perform unit tests 
tf.test.main() 

# Start training loop 

for i in range (generations): 
8 如 果 在 命令 后 运行 程序 ， 将 得 到 如 下 输出 : 


Spython3 implementing unit tests.py 
Ran 3 tests in 0.000s 
OK 


9. 完 整 的 代码 可 以 在 本 书 的 GitHub 地 址 (https://github.com/nfmcclure/tensorflow_cookbook/) 获取 。 


10.2.2 工作 原理 


本 例 实现 了 三 种 单元 测试 : 张 量 值 、 操 作 输 出 结果 和 张 量 形状 。 关 于 TensorFlow 更 多 的 单元 测试 函数 请 浏 


Whttps:;//www.tensorflow.org/versions/master/api docs/python/test.html, 


ERA, STMT AAS ET SR SIRE, RTS, ASR. 


10.3 TensorFlow 的 并 发 执行 


读者 很 明显 地 看 到 TensorFlow 和 计算 图 天 生 适 合并 行 计算 。 计 算 图 可 以 由 不 同 的 处 理 器 来 处 理 。 本 节 将 介绍 如 何在 同一 人 台 机 器 上 
访问 不 同 的 处 理 器 。 


10.3.1 开始 


本 书 将 展示 如 何在 同一 系统 上 访问 多 个 设备 ， 并 训练 算法 模型 。 对 于 单个 CPU， 这 是 很 常见 的 并 友 问 题 。 对 于 单个 或 者 多 个 


GPU， 其 可 以 共享 计算 能 力 。 如 果 TensorFlow 能 访问 这 尝 设 备 ， 通 过 贫 林 过程 它 将 目 动 在 多 个 设备 上 分 布 式 计算 。 但 是 TensorFlow 
也 人 允许 程序 通过 命名 空间 的 方式 指定 哪个 操作 将 在 哪个 设备 上 执行 。 


为 了 访问 GPU 设备 ， 需 要 安装 TensorFlow 的 GPU 版 。 安 装 TensorFlow 的 GPU 版 请 访 
[a]: https;//www.tensorflow.org/versions/master/get started/os setup.html#download-and-setup， 并 根据 自身 操作 系统 选择 
安装 步骤 。 值 得 一 提 的 是 ，TensorFlow 的 GPU 版 要 求 安装 CUDA 来 使 用 GPU。 


本 节 将 介绍 一 系列 的 命令 来 访问 操作 系统 上 的 各 种 设备 ， 并 找 出 哪个 设备 可 供 TensorFlow 使 用 。 


10.3.2 动手 做 


1. 为 了 能 够 找到 TensorFlow 的 什么 操作 正在 使 用 什么 设备 ， 我 们 在 计算 图 会 话 中 传 入 一 个 config 参 数 ， 将 
log device_placement 设 为 True。 当 我 们 在 命令 行 运行 脚本 时 ， 会 看 到 指定 设备 输出 ， 代 码 如 下 : 


import tensorflow as tf 

sess = tf.Sesslon(config-tf.ConfigProto(log device _ 
placement=True) ) 

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], 
name='a') 

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], Shape=[3, 2], 
name='b') 

c = tf.matmul(í(a, b) 

# Runs the op. 

print (sess.run(c) ) 


2. 从 控制 台 运 行 下 面 的 命令 : 


Spython3 using multiple devices.py 

Device mapping: no known devices. 

I tensorflow/core/common runtime/direct session.cc:175] Device 
mapping: 

MatMul: /job:localhost/replica:0/task:0/cpu:0 

I tensorflow/core/common runtime/simple placer.cc:818] MatMul: / 
job:localhost/replica:0/task:0/cpu:0 

b: /job:localhost/replica:0/task:0/cpu:0 

I tensorflow/core/common runtime/simple placer.cc:818] b: / 
job:localhost/replica:0/task:0/cpu:0 

a: /job:localhost/replica:0/task:0/cpu:0 

I tensorflow/core/common runtime/simple placer.cc:818] a: / 


job:localhost/replica:0/task:0/cpu:0 
[[ 22. 28.] 
[ 49. 64.]] 


3. 有 时 ， 我 们 希望 搞 清楚 TensorFlowJ 正 在 使 用 的 设备 。 当 加 载 先前 保存 过 的 模型 ， 并 且 该 模型 在 计算 图 中 已 分 配 固定 设备 时 ， 服 
务 器 可 提供 不 同 的 设备 给 计算 图 使 用 。 实 现 该 功能 只 需 在 config 设 置 软 设 备 ， 代 码 如 下 : 


config = tf.ConfigProto() 
config.allow soft placement - True 
sess soft = tf.Session(config-config) 


4. 当 使 用 GPU 时 ，TensorFlow 默 认 占 据 大 部 分 GPU 内 人 存 。 虽 然 这 也 是 时 常 期 望 的 ， 但 是 我 们 能 谨慎 分 配 GPU 内 和 存 。 当 
TensorFlow 一 直 不 释放 GPU 内 存 时 ， 如 有 必要 ， 我 们 可 以 设置 GPU 内 存 增 长 选项 让 GPU 内 存 分 配 缓慢 增 大 到 最 大 限制 ， 代 码 如 下 : 


config.gpu options.allow growth = True 
sess grow - tf.Session(config-config) 


5. 如 果 希 望 限制 死 TensorFlow 使 用 GPU 内 存 的 百分比 ， 可 以 使 用 config 设 置 per process gpu memory fraction, REBUT: 


config.gpu options.per process gpu memory fraction = 0.4 
sess limited - tf.Session(config-config) 


6. 有 时 ， 我 们 希望 代码 健壮 到 可 以 决定 运行 多 少 GPU 合适 。TensorFlow 有 内 建 函 数 可 以 探测 到 。 如 果 我 们 期 望 代 码 在 GPU 内 存 合 
适时 利用 GPU 计算 能 力 ， 并 分 配 指定 操作 给 GPU， 那 么 该 功能 是 有 益 的 。 有 具体 代码 如 下 : 


if tf.test.is built with cuda(): 


7. 我 们 希望 分 配 据 定 操作 给 GPU。 下 面 是 一 个 示例 代码， 做 了 一 些 简单 的 计算 ， 并 将 它们 分 配给 主 CPU 和 两 个 副 GPU， 代 码 如 
RB: 


with tf.device('/cpu:0'): 
a = tf.constant([1.0, 3.0, 5.0], shape-[1, 31) 
b = t£.constant([2.0, 4.0, 6.0], shape=[3, 1]) 


with tf.device('/gpu:0'): 
= tf.matmul (a,b) 
c = tf.reshape(c, [-1]) 


with tf.device('/gpu:1'): 
d = tf.matmul (b,a) 
flat d = tf.reshape(d, [-1]) 


combined = tf.mul(c, flat d) 
print (sess.run(combined) ) 


10.3.3 ”工作 原理 


当 希 望 为 TensorFlow 的 操作 指定 机 器 的 特定 设备 ， 我 们 需要 知道 如 何 引 用 该 设备 。 在 TensorFlow 中 ， 设 备 名 约定 俗 成 的 命名 如 
下 表 所 示 。 


iz 备 设备 名 
主 CPU /cpu:0 
副 CPU /cpu:1 
主 GPU /gpu:0 
fal] GPU /gpu: 1 
第 三 GPU /gpu:2 


10.3.4 ERZ 


TensorFlow 在 云 服 务 上 运行 越 来 越 容 易 。 许 多 云 服 务 提供 商 提 供 珊 有 主 CPU 和 GPU 的 GPU 实例 。 亚 马 逊 (Amazon Web 
Services, AWS) 的 G 实 例 和 P2 实 例 提 供 GPU 计 算 能 力 加 速 TensorFlow 的 处 理 。 也 有 AWS 机 器 学 习 镜 像 (AWS Machine 
Image, AMI) ， 其 提供 免费 的 启动 项 已 安 闻 TensorFlow 的 GPU 实例 。 


10.4 “分 布 式 TensorFlow 实 践 


为 了 扩展 TensorFlow 的 并 行 能 力 ， 可 将 分 开 的 计算 图 操作 以 分 布 式 的 方式 运行 在 不 同 的 机 器 上 。 本 节 主 要 介绍 分 布 式 


TensorFlow 实 践 。 


10.4.1 开始 


TensorFlow 友 布 之 后 几 个 月 ，Google 公 司 友 布 了 分 布 式 的 TensorFlow。 这 是 TensorFlow 和 生态 系统 的 一 个 巨大 提升 ， 人 允许 构建 
一 个 TensorFlow 集 群 (分 布 于 不 同 的 worker 机 器 ) ， 共 享 相同 的 训练 和 评估 模型 的 计算 任务 。 使 用 分 布 式 的 TensorFlow 只 需要 简单 
地 设置 worker 节 后 参数 ， 然 后 为 不 同 的 worker 节 点 分 配 不 同 的 作业 。 


本 节 将 建立 两 个 本 地 worker 并 分 配 不 同 的 作业 。 


10.4.2 ”动手 做 


1. 加 载 TensorFlow， 定 义 两 个 本 地 worker (端口 分 别 为 2222 和 2223) ， 代 码 如 下 : 


import tensorflow as tf 
H Cluster for 2 local workers (tasks O and 1): 


cluster = tf.train.ClusterSpec({'local': ['localhost:2222', 
'localhost:2223'] }) 


2. 将 两 个 worker 加 入 到 集群 中 ， 并 标记 task 数 字 ， 代 码 如 下 : 


server = tf.train.Server(cluster, job name="local", task index=0) 
server = tf.train.Server(cluster, job name="local", task _ index=1) 


3. 现 在 我 们 为 每 个 worker 分 配 一 个 task。 第 一 个 worker 将 初始 化 两 个 矩阵 (每 个 是 25x25 维 度 ) 。 第 二 个 workeri 计 算 每 个 和 矩阵 
所 有 元 素 的 和 。 然 后 自动 分 配 将 两 个 和 求 和 的 任务 ， 并 打印 出 结果 ， 代 码 如 下 : 


mat dim = 25 
matrix list = {} 
with tf.device('/job:local/task:0'): 
ror L in rangeto, 2): 
m label = 'm [j'.format (i) 
matrix list[m label] = tf.random normal([mat dim, mat 
dim]) 
# Have each worker calculate the sums 
sum outs = {} 
with tf.device('/job:local/task:1'): 
for i in range(0, 2): 
A = matrix list['m [j'.format(i)] 
sum outs['m (j'.format(i)] = tf.reduce sum(A) 
# Sum all the sums 
summed out = tf.add n(list (sum outs.values())) 
with tf.Session(server.target) as sess: 
result - sess.run(summed out) 
print ('Summed Values:[]'.format(result)) 


4. 运 行 下 面 的 命令 : 


$ python3 parallelizing tensorflow.py 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:197] 
Initialize GrpcChannelCache for job local -» [0 -» localhost:2222, 
1 -» localhost:2223] 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:206] 
Started server with target: grpc://localhost:2222 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:197] 
Initialize GrpcChannelCache for job local -» [0 -» localhost:2222, 
1 -> localhost:2223] 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:206] 
Started server with target: grpc://localhost:2223 

I tensorflow/core/distributed runtime/master session.cc:928] Start 
master session 252bb6£530553002 with config: 

Summed Values:-21.12611198425293 


10.43 ”工作 原理 


使 用 分 布 式 的 TensorFlow 相 当 容 易 。 我 们 只 需 在 集群 服务 器 中 为 worker 节 点 分 配 带 名 字 的 IP。 然 后 就 可 以 手动 或 者 自动 为 
worker 节 点 分 配 操 作 任 务 。 


10.5 TensorFlow 产 品 化 开发 提示 


如 果 我 们 想 在 产品 中 使 用 机 器 学 习 的 脚本 ， 那 还 是 有 些 最 佳 实践 的 注意 点 。 本 节 将 指出 一 些 有 用 的 最 佳 实 跤 。 


10.5.1 开始 


本 刷 总 结 提炼 了 TensorFlow 产 品 化 的 注意 点 。 这 些 包括 如 何 最 有 效 地 保存 和 加 载 词汇 表 、 计 算 图 、 模 型 变量 和 检查 点 。 我 们 也 会 
讨论 如 何 使 用 TensorFlow 的 命令 行 参 数 解 析 器 和 日 志 级 别 。 


10.5.2 ”动手 做 
1. 当 运行 TensorFlow 程 序 时 ， 我 们 可 能 希望 确保 内 存 中 没有 其 他 计算 图 会 话 ， 或 者 每 次 调试 程序 时 重 置 计算 图 会 话 ， 代 码 如 下 : 


from tensorflow.python.framework import ops 
ops.reset default graph() 


2. 当 人 处理 文本 或 者 任意 数据 管道 ， 我 们 需要 确保 保存 处 理 过 的 数据 ， 以 便 随后 用 相同 的 方式 处 理 评估 数据 。 如 果 处 理 文 本 数据 ， 
我 们 需要 确定 保存 和 加 载 词汇 字典 。 下 面 的 代码 是 保存 JSON 格 式 的 词汇 字典 的 例子 : 


import json 


word LIBE = ['CO"; '"De', Tor"; 'not!, "Dot, re"! 

vocab list - list(set(word list)) 

vocab2ix dict = dict(zip(vocab list, range(len(vocab list)))) 
ix2vocab dict = {val:key for key,val in vocab2ix dict.items() } 


# Save vocabulary 

import json 

with open('vocab2ix dict.json', 'w') as file conn: 
json.dump(vocab2ix dict, file conn) 

# Load vocabulary 

with open('vocab2ix dict.json', 'r') as file conn: 
vocab2ix dict - json.load(file conn) 


次 一 本 例 使 用 JSON 格 式 存储 词汇 字典 ， 但 是 我 们 也 可 以 将 其 存储 为 tt、CSV 或 者 二 进 制 文件 。 如 果 词汇 字典 太 大 ， 则 建议 使 用 
二 进 制 文件 。 用 pickle 库 创建 pkl 二 进 制 文 件 。 但 是 pkl 文 件 在 不 同 的 Python 版 本 间 不 能 兼容 。 


3. 为 了 保存 算法 模型 的 计算 图 和 变量 ， 我 们 在 计算 图 中 创建 Saver () 操作 。 建 议 在 模型 训练 过 程 中 按 一 定 规则 保存 模型 。 具 体 代 
码 如 下 : 


# After model declaration, add a saving operations 
saver - tf.train.Saver() 


# Then during training, save every so often, referencing the 
training generation 


for i in range (generations): 


if i$save every == 0: 
Saver.save(sess, 'my model', global step=step) 
4 Can also save only specific variables: 
saver = tf.train.Saver({"my var": my variable]) 


一 iE, Saver () 操作 也 可 以 传 参数 。 它 能 接收 变量 和 张 量 的 字典 来 保存 指定 元 素 ， 也 可 以 接收 checkpoint_every_n_hours 参 数 
来 按时 间 规 则 保存 操作 ， 而 不 是 按 选 代 次 数 。 默 认 保存 操作 只 保存 最 近 的 五 个 模型 〈 考 虑 存储 空间 ) ,但 是 也 可 以 通过 max_to_keep 选 
项 改变 (默认 值 为 5) o 


4. 在 保存 算法 模型 之 前 ， 确 保 为 模型 重要 的 操作 命名 。 如 果 不 提前 命名 ，TensorFlow 很 难 加 载 指定 占 位 符 、 操 作 或 者 变量 。 
TensorFlow 的 大 部 分 操作 和 遂 数 都 接受 name 参 数 ， 代 码 如 下 : 


conv weights = tf.Variable(tf.random normal(), name-'conv 
weights!) 
loss = tf.reduce mean(... , name='loss') 


5.TensorFlow 的 tf.apps.flags 库 使 得 执行 命令 行 参 数 解 析 相 当 容 易 。 你 可 以 定义 string、float、integer 或 者 boolean 型 的 命令 行 
参数 。 运 行 tf.app.run () 函数 即 可 运行 带 有 flag 参 数 的 main () 函数 ， 代 码 如 下 : 


tf.app.flags.DEFINE string("worker locations", "", "List of worker 
addresses.") 


tf.app.flags.DEFINE float('learning rate', 0.01, 'Initial learning 
rate.') 


tf.app.flags.DEFINE integer('generations', 1000, 'Number of 
training generations. ') 


tf.app.flags.DEFINE boolean('run unit tests', False, 'If true, run 
tests.') 
# Need to define a 'main' function for the app to run 
def main( ): 
Worker ips = FLAGS.worker locations.split(",") 
learning rate - FLAGS.learning rate 
generations - FLAGS.generations 
run unit tests - FLAGS.run unit tests 
4 Run the Tensorflow app 
if name == " main ": 
tf.app.run() 


6.TensorFlow 有 内 建 的 logging 设 置 日 志 级 别 。 其 日 志 级 别 可 设置 为 DEBUG、INFO、WARN、ERROR 和 FATAL， 默 认 级 别 是 


WARN， 代 码 如 下 : 


tf.logging.set verbosity(tf.logging.WARN) 

# WARN is the default value, but to see more information, you can 
set it to 

H INFO or DEBUG 

tf.logging.set verbosity(tf.logging.DEBUG) 


10.5.3 ”工作 原理 
本 节 提 供 了 在 TensorFlow 中 编写 产品 级 代码 的 注意 事项 。 我 们 希望 通过 介绍 app-flag 的 概念 、 模 型 的 存储 和 logging， 使 得 读者 


能 习惯 地 用 这 些 工具 编写 代码 ， 并 能 理解 这 些 工具 在 他 人 代码 中 的 运用 。 使 用 其 他 方法 也 可 以 写 出 产品 级 代码 ， 下 一 节 将 展示 一 个 完 


整 的 示例 |。 


10.6 TensorFlow 产 品 化 的 实例 


产品 级 机 器 学 习 模 型 的 最 佳 实践 是 分 开 训练 和 评估 代码 。 本 节 将 展示 评估 脚本 ,包括 单元 测试 、 模 型 保存 和 加 载 ， 以 及 模型 评 
(fi. 


10.6.1 开始 


本 节 将 展示 如 何 使 用 上 面 的 产品 级 标准 实现 评估 脚本 。 代 码 实 际 由 训练 脚本 和 评估 脚本 组 成 ， 但 是 本 节 将 只 讲解 评估 脚本 。 注 
意 ， 两 个 脚本 都 可 以 在 GitHub (https://github.com/nfmcclure/tensorflow cookbook/) 在 线 获取 。 


本 例 将 实现 第 9 章 的 第 一 个 RNN 模 型 例子 ， 预 测 短信 文本 信息 是 人 否 为 垃圾 信息 。 我 们 假设 RNN 模 型 已 训练 好 并 保 仔 ， 同 时 市 有 词 
汇 表 。 


10.6.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 声 明 TensorFlow 应 用 的 flag， 代 码 如 下 : 


import os 

import re 

import numpy as np 

import tensorflow as tf 

from tensorflow.python.framework import ops 
ops.reset default graph() 


tf.app.flags.DEFINE string("storage folder", "temp", "Where to 
store model and data.") 


tf.app.flags.DEFINE string('model file', False, 'Model file 
location.') 

tf.app.flags.DEFINE boolean('run unit tests', False, 'If true, run 
tests.') 

FLAGS = tf.app.flags.FLAGS 


2. 声 明文 本 清洗 函数 ， 在 训练 脚本 中 也 有 相同 的 清洗 函数 ， 代 码 如 下 : 


def clean text (text string): 
text string = re.sub(r'([ \s\w]| |[0-9])+', '', text string) 
text string = "".join(text string.split()) 
text string - text string.lower() 
return (text string) 


3DU &PEBRBSEN, (SRR: 


def load vocab(): 
vocab path - os.path.join(FLAGS.storage folder, "vocab") 


vocab processor = tf.contrib.learn.preprocessing. 
VocabularyProcessor.restore(vocab path) 


return (vocab processor) 


4. 有 了 清洗 的 文本 数据 和 词汇 处 理 函 数 ， 即 可 创建 数据 处 理 管道 ， 代 码 如 下 : 


def process data(input data, vocab processor): 

input data = clean text (input data) 

input data = input data.split() 

processed input = np.array(list(vocab processor. 
transform(input data))) 

return (processed input) 


5. 我 们 需要 数据 评估 模型 。 我 们 将 要 求 用 户 人 在 屏幕 上 输入 文本 ， 然 后 处 理 输入 文本 和 返回 处 理 文 本 ， 代 码 如 下 : 


def get input data(): 

input text - input("Please enter a text message to evaluate: 
") 

vocab processor = load vocab() 

return(process data(input text, vocab processor)) 


太一 对 于 本 例 而 言 ， 我 们 通过 要 求 用 户 输入 来 创建 评估 数据 ， 也 有 许多 应 用 通过 提供 文件 或 者 API 来 获取 数据 ， 我 们 可 以 根据 需 


要 调整 输入 函数 。 
6. 对 于 单元 测试 ， 应 确保 文本 处 理 函 数 的 行为 符合 预期 ， 代 码 如 下 : 


class clean test(tf.test.TestCase): 
# Make sure cleaning function behaves correctly 
def clean string test (self): 
with self.test session(): 


test input = '--Tensorflow\'s so Great! Don\t you 
think so? 

test expected - 'tensorflows so great don you think 
so! 

test out - clean text(test input) 


self.assertEqual(test expected, test out) 


TIME, AS UTER, BATSTERN. ZEROES, BVA, MARERE, AVENE, fT 
印 输出 结果 ， 代 码 如 下 : 


def main(args): 
# Get flags 
storage folder - FLAGS.storage folder 
# Get user input text 
x data - get input data() 


4 Load model 
graph - tf.Graph() 
with graph.as default(): 
sess - tf.Session() 
with sess.as default(): 
# Load the saved meta graph and restore variables 
saver = tf.train.import meta graph("(].meta". 
Format (os.path.join(storage folder, "model.ckpt"))) 
saver.restore(sess, os.path.join(storage folder, 
"model.ckpt")) 
# Get the placeholders from the graph by name 
x data ph - graph.get operation by name("x data ph"). 
outputs [0] 
dropout keep prob - graph.get operation by 
name ("dropout keep prob") .outputs [0] 
probability outputs = graph.get operation by _ 
name ("probability outputs") .outputs [0] 
# Make the prediction 
eval feed dict = [x data ph: x data, dropout keep 
prob: 1.0} 
probability prediction - sess.run(tf.reduce 
mean(probability outputs, 0), eval feed dict) 


# Print output (Or save to file or DB connection?) 
print('Probability of Spam: {:.4}!'.format (probability | 
prediction[1])) 


8. 如 下 代码 展示 了 main () ERAS ERUIT. 


if | name == " main ": 
if FLAGS.run unit tests: 
# Perform unit tests 
tf.test.main() 
else: 
# Run evaluation 
tf.app.run() 


10.6([3 ”工作 原理 


对 于 模型 评估 ， 我 们 能 加 载 市 TensorFlow app-flag 的 命令 行 参数 ， 加 载 模型 和 词汇 处 理 冰 数 ， 然 后 运行 处 理 过 的 数据 训练 模型 


并 进行 预测 。 


注意 ， 应 通过 命令 行 运 行 本 节 的 脚本 ;在 创建 算法 模型 和 词汇 字典 前 应 检测 训练 脚本 。 


第 11 草 TensorFlow 的 进 阶 应 用 


: TensorFlow "J 43345: Tensorboard 
- TensofFlow 实 现 遗 传 算法 

- TensorFlow 实 现 k-means 算 法 

- TensorFlow 解 决 常 微分 方程 问题 


本 章 所 有 代码 可 以 在 GitHub (https:;//github.com/nfmcclure/tensorflow cookbook.) 获取 。 


11.1 简介 
到 目前 为 止 ， 我 们 已 经 看 到 TensorFlow 能 够 实现 许多 算法 模型 ， 但 是 TensorFlow 能 做 的 远 不 止 于 此 。 本 章 将 展示 如 何 使 用 


Tensorboard，Tensorboard 是 TensorFlow 的 可 视 化 模块 ， 人 允许 可视化 模型 训练 过 程 中 的 统计 指标 、 曲 线 图 和 图 像 。 剩 余 的 章节 将 介 
绍 TensorFlow 的 group 函 数 的 实现 逐步 更 新 。 该 函数 帮助 我 们 实现 遗传 算法 、k-means 聚 类 和 常 微 分 方程 (ODE) 的 求解 。 


11.2 TensorFlow 可 钢化: Tensorboard 


机 器 学 习 算 法 的 监控 和 上 故障 解决 是 一 个 令 人 时 惯 的 任务 。 特 别 地 ， 在 训练 模型 时 ， 你 必须 等 待 很 长 时 间 ， 有 时 甚至 不 知道 结果 。 
这 时 使 用 TensorFlow 的 可 视 化 工具 Tensorboard 可 以 图 形 化 计算 图 ， 绘 制 模型 训练 中 重要 的 值 (损失 、 准 确 度 和 批量 训练 时 间 等 ) 。 


11.2.1 开始 


为 了 展示 Tensorboard 的 各 种 使 用 方法 ， 本 节 再 次 实现 第 3 章 中 的 线性 回归 模型 。 使 用 TensorFlow 的 损失 函数 和 友 向 传播 来 拟 合 
直线 。 下 面 将 介绍 在 Tensorboard 中 如 何 监 控 数 信 型 数值 ， 和 数据 集 的 直方 图 ， 以 及 如 何 创建 图 像 。 


11.2.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 代 码 如 下 : 


import os 

import io 

import time 

import numpy as np 

import matplotlib.pyplot as plt 
import tensorflow as tf 


2. 初 始 化 计算 图 会 话 ， 创 建 summary-writer 将 Tensorboard summary 写 入 Tensorboard 文 件 夹 ， 代 码 如 下 : 


sess = tf.Session() 
# Create a visualizer object 


summary writer = tf.train.SummaryWriter('tensorboard', tf.get 
default graph()) 


3. 确 保 summary writer 写 入 的 Tensorboard 文 件 夹 存在 ， 代 码 如 下 : 


if not os.path.exists('tensorboard!): 
os.makedirs ('tensorboard' ) 


4 设置 模型 参数 ， 为 模型 生成 线性 数据 集 。 注 意 ， 设 置 真实 斜率 true_slope 为 2 ( 注 : 迭代 训练 时 ， 我 们 将 随 着 时 间 的 变化 可 视 化 
斜率 ， 直 到 取 到 真实 伸 率 值 ) ， 代 码 如 下 : 


batch size = 50 

generations - 100 

# Create sample input data 

x data = np.arange(1000)/10. 

true slope = 2. 

y data = x data * true slope + np.random.normal (loc=0.0, scale=25, 
Size=1000) 


5 分 割 数据 集 为 测试 集 和 训练 集 ， 代 码 如 下 : 


train ix = np.random.choice(len(x data), size=int (len (x 
data)*0.9), replace-False) i i 

test ix - np.setdiffld(np.arange(1000), train ix) 

X data train, y data train = x data[train ix], y data[train ix] 
x data test, y data test = x data[test ix], y data[test ix] 


6. 创 建 占 位 待 、 变 量 、 模 型 操作 、 损 失 和 优化 器 操作 ， 代 码 如 下 : 


x graph input = tf.placeholder(tf.float32, [Nonel) 

y graph input = tf.placeholder(tf.float32, [None] ) 

# Declare model variables 

m = tf.Variable(tf.random normal([1], dtype-tf.float32), 
name='Slope') 

# Declare model 

output = tf.mul(m, x graph input, name-'Batch Multiplication' ) 
# Declare loss function (L1) 

residuals - output - y graph input 


12 loss = tf.reduce mean(tf.abs(residuals), name="L2 Loss") 
# Declare optimization function 

my optim - tf.train.GradientDescentOptimizer(0.01) 

train step - my optim.minimize(l2 loss) 


7. 创 建 Tensorboard 操 作 汇 总 一 个 标量 值 。 访 汇总 的 标量 值 为 模型 的 斜率 估计 ， 代 码 如 下 : 


with tf.name scope(í('Slope Estimate!): 
tf.scalar summary('Slope Estimate', tf.squeeze (m)) 


8. 添 加 到 Tensorboard 的 另 一 个 汇总 数据 是 直方 图 汇总 。 该 直方 图 汇总 输入 张 量 ， 输 出 曲线 图 和 直方 图 ， 代 码 如 下 : 


with tf.name scope('Loss and Residuals'): 
tf.histogram summary('Histogram Errors', 12 loss) 
tf.histogram summary('Histogram Residuals', residuals) 


9. 创 建 完 这 些 汇 忆 操作， 我 们 创建 汇 忌 合并 操作 综合 所 有 的 汇 忆 数据， 然后 初始 化 模型 变量 ,代码 如 下 : 


summary op = tf.merge all summaries() 
# Initialize Variables 

init = tf.initialize all variables () 
sess.run(init) 


10. 现 在 训练 线性 回归 模型 ， 将 每 次 迭代 训练 写 入 汇 忆 数据， 代码 如 下 : 


for i in range (generations): 


batch indices - np.random.choice(len(x data train), 
size-batch size) 

x batch - x data train[batch indices] 

y batch - y data train[batch indices] 


_, train loss, summary = sess.run([train step, 12 loss, 
summary op], 


feed dict={x graph input: x batch, 
y graph input: y batch]) 


test loss, test resids = sess.run(|12 loss, residuals], feed 
dict={x graph input: x data test, 


y graph input: y data test]) 


if (1+1)%10==0: 
print('Generation {} of { Train Loss: {:.3}, Test Loss: 
{:.3}.'.format(i+1, generations, train loss, test loss)) 


log writer = tf.train.SummaryWriter('tensorboard' ) 
log writer.add summary (summary, i) 


11. 为 了 可 视 化 数据 点 拟 合 的 线性 回归 模型 ， 我 们 创建 protobuff 格 式 的 图 形 。 开 始 之 前 ， 我 们 创建 函数 输出 protobuff 格 式 的 图 
形 ， 代 码 如 下 : 


def gen linear plot (slope): 

linear prediction - x data * slope 

plt.plot(x data, y data, 'b.', labels'data') 

plt.plot(x data, linear prediction, 'r-', linewidthz3, 
label='predicted line') 

plt.legend(loc='upper left') 

buf = io.BytesIO() 

plt.savefig(buf, format='png') 

buf .seek (0) 

return (buf) 


12. 创 建 并 且 将 protobuff 格 式 的 图 形 增加 到 Tensorboard， 代 码 如 下 : 


slope = sess.run(m) 

plot buf = gen linear plot(slope[0] ) 

# Convert PNG buffer to TF image 

image = tf.image.decode png(plot buf.getvalue(), channels=4) 
# Add the batch dimension 

image = tf.expand dims(image, 0) 

# Add image summary 

image summary op - tf.image summary("Linear Plot", image) 
image summary - sess.run(image summary op) 

log writer.add summary(image summary, i) 

log writer.close() 


注意 Tensotboatd 写 图 形 汇总 太 频 繁 。 例 如 ， 如 果 我 们 和 迭代 训练 10000 次 每 次 都 写 入 汇总 数据 ， 那 将 生成 10000 副 图 。 这 会 迅速 
吃 掉 磁盘 空间 。 


11.3 Tensorboard 的 进 阶 


从 命令 行 运 行 上 面 的 脚本 : 
$ Python3 using tensorboard.py 


Run the command: Stensorboard --logdir="tensorboard" Then navigate 
to http://127.0.0.0:6006 


Generation 10 of 100. Train Loss: 20.4, Test Loss: 20.5. 
Generation 20 of 100. Train Loss: 17.6, Test Loss: 20.5. 
Generation 90 of 100. Train Loss: 20.1, Test Loss: 20.5. 
Generation 100 of 100. Train Loss: 19.4, Test Loss: 20.5. 


然后 运行 指定 的 命令 局 动 Tensorboard， 代 码 如 下 : 


$ tensorboard --logdir="tensorboard" 
Starting TensorBoard b'29' on port 6006 
(You can navigate to http://127.0.1.1:6006) 


图 11-1 是 Tensorboard 看 到 的 样 例 图形 。 
图 11-1 是 迭代 100 次 标量 汇总 (斜率 估计 ) 的 趋势 图 ， 可 以 看 到 最 后 取 值 为 2。 


图 11-2 展 示 了 直方 图 汇总 的 可 视 化 。 


TensorBoard EVENTS IMAGES AUDIO 


Write a regex to create a tag group X Slope_Estimate 


[ ] Split on underscores Slope Estimate 


[ ] Data download links 


Tooltip sorting method: default 


Smoothing 


一 -人 33 
0.000 20.00 40.00 60.00 80.00 100.0 


Horizontal Axis 


STEP RELATIVE WALL 


Runs 


Write a regex to filter runs 


图 11-1 Tensofboatd 中 的 标量 值 、 斜 率 估 计 的 可 视 化 


TensorBoard EVENTS IMAGES AUDIO 


Write a regex to create a tag group X Histogram Errors 
[ ] Split on underscores Histogram. Errors 
220 | | | 
Horizontal Axis 180 | | = 
140 | | 
STEP RELATIVE WALL 100 | | 
soo CLL | 
20.0 
Runs 0.000 20.00 40.00 60.00 80.00 100.0 
ra 
Write a regex to filter runs -7 


Histogram Residuals 


Histogram Residuals 


图 11-2 可视化 模型 的 误差 和 残留 直方 图 


图 11-3 展 示 的 是 最 终 的 拟 合 直 线 和 数据 点 图 形 ， 保 存 为 protobuff 格 式 ， 插 入 Tensorboard 的 图 像 汇 忌 。 
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图 11-3  Tensorboard F 4& A $7 E] A 


11.4 用 TensorFlow 实 现 遗 传 算 法 


TensorFlow 也 可 以 用 来 更 新 任意 表示 为 计算 图 的 进 代 型 算法 。 迭 代 型 算法 的 例子 有 遗传 算法 ， 用 于 解决 最 优化 的 问题 。 


11.4.1 开始 


本 节 将 介绍 如 何 实现 一 个 简单 的 遗传 算法 。 遗 传 算法 是 最 优化 参数 空间 (离散 的 、 连 续 的、 光滑 的 、 非 光滑 的 ， 等 等 ) 的 有 效 方 
法 。 基 本 思想 是 创建 一 个 随机 初始 化 的 种 群 ， 进 化 、 重 组 和 突变 生成 新 的 种 群 (更 好 的 质量 ) 。 通 过 当前 种 群 的 个 体 的 适应 度 来 计算 
各 个 个 体 的 适应 度 . 

一 般 来 讲 ， 遗 传 算法 的 大 体 步骤 是 : 先 随机 初始 化 种 群 ， 通 过 各 个 个 体 的 适应 度 排序 ， 选 择 适 应 度 较 高 的 个 体 随机 重组 (或 者 交 
X) 创建 下 一 代 种 群 。 这 些 下 一 代 种 群 经 过 轻微 变异 产生 不 同 于 上 一 代 的 更 好 的 适应 度 ， 然 后 将 其 放 入 父 种 群 。 重 复 前 面 的 过 程 。 

遗传 算法 停止 迄 代 的 标准 很 多 ， 但 是 本 例 中 仅仅 以 迁 代 的 总 次 数 为 标准 。 我 们 也 可 以 在 当前 种 群 个 体 的 适应 度 达 到 预期 的 标准 ， 
或 者 在 许多 次 迄 代 后 最 大 的 适应 度 不 再 变化 时 ， 停 止 迁 代 。 

本 节 将 展示 如 何在 TensorFlow 中 实现 遗传 算法 。 我 们 将 生成 一 个 最 接近 ground truth O U5)9 ^* (50 个 float 型 的 数 
组 ) 。 适 应 度 为 个 体 和 ground truth 的 均 方 误差 的 负 值 。 


11.4.2 ”动手 做 


1. 导 入 必要 的 编程 库 ， 代 码 如 下 : 

import os 

import numpy as np 

import matplotlib.pyplot as plt 

import tensorflow as tf 

2 . 接 下 来 ， 我 们 设置 遗传 算法 的 参数 。 在 本 例 中 ， 有 100 个 个 体 ， 每 个 长 度 为 50。 选 择 的 百分比 是 20%， 即 适应 度 排序 前 20 的 个 
体 。 变 异 定义 为 特征 数 的 倒数 ， 这 意味 着 下 一 代 种 群 的 一 个 特征 会 变异 。 运 行 遗 传 算法 迭代 200 次 ， 代 码 如 下 : 


pop size = 100 


features - 50 

selection - 0.2 

mutation = 1./ features 

generations - 200 

num parents = int(pop size*selection) 
num children - pop size - num parents 


3. 初 始 化 计算 图 会 话 ， 创 建 ground truth, ZAA EuBSNIEE, (BUT: 


sess = tf.Session() 
# Create ground truth 


truth = np.sin(2*np.pi* (np.arange(features, dtype-np.float32))/ 
features) 


4. 使 用 TensorFlow 的 变量 (随机 正 态 分 布 输入 ) 初始 化 种 群 ， 代 码 如 下 : 


population = tf.Variable(np.random.randn(pop size, features), 
dtype-tf.float32) 


5. 现 在 创建 遗传 算法 的 占 位 待 。 该 占 位 符 是 为 ground truth RANGE. AAR AS CSS ELAR 
X, 这 些 都 是 模型 的 占 位 答 ， 代 码 如 下 : 


truth ph = tf.placeholder(tf.float32, [1, features]) 


crossover mat ph - tf.placeholder(tf.float32, [num children, 
features]) 


mutation val ph = tf.placeholder(tf.float32, [num children, 
features]) 


6. 计 算 群 体 的 适应 度 ( 均 万 误 笑 的 负 值 ) ， 选 择 较 局 适应 度 的 个 体 ， 代 码 如 下 : 


fitness = -tf.reduce mean(tf.square(tf.sub(population, truth ph)), 
1) 


top vals, top ind - tf.nn.top k(fitness, k-pop size) 


7. 为 了 获得 最 后 的 结果 并 绘图 ， 我 们 希望 检索 种 群 中 适应 度 最 高 的 个 体 ， 代 码 如 下 : 


best val = tf.reduce min(top vals) 
best ind = tf.arg min(top vals, 0) 
best individual = tf.gather (population, best ind) 


8. 排 序 父 种 群 ， 截 取 适 应 度 较 高 的 个 体 作 为 下 一 代 ， 代 码 如 下 : 


population sorted = tf.gather(population, top ind) 


parents = tf.slice(population sorted, [0, 0], [num parents, 
features]) 


9 3851: 8I P^ Bie] ishuffleB S RHRERBIEESIEGUSE P—f[ VERRE, RISE MABE SIS FIONN, AKEE, SEPA 
NAM, TSMR: 


# Indices to shuffle-gather parents 
rand parentl ix = np.random.choice (num parents, num children) 
rand parent2 ix = np.random.choice(num parents, num children) 


# Gather parents by shuffled indices, expand back out to pop size 
Loo 


rand parentl = tf.gather (parents, rand parentl ix) 

rand parent2 - tf.gather(parents, rand parent2 ix) 

rand parentl sel = tf.mul (rand parent1, crossover mat ph) 

rand parent2 sel = tf.mul (rand parent2, tf.sub(1., crossover mat 
ph)) 

children after sel = tf.add(rand parenti sel, rand parent2 sel) 


10. 最 后 一 个 步骤 是 变异 下 一 代 ， 本 例 将 增加 一 个 随机 正常 值 到 下 一 代 种 群 和 矩阵 的 特征 分 数 的 倒数 ， 然 后 将 这 个 矩阵 和 父 种 群 连 
Br, TURBAT: 


mutated children - tf.add(children after sel, mutation val ph) 
# Combine children and parents into new population 


new population - tf.concat(0, [parents, mutated childrenl) 
11. 模 型 的 最 后 一 步 是 ， 使 用 TensorFlow 的 group () 操作 分 配 下 一 代 种 群 到 父 一 代 种 群 的 变量 ， 代 码 如 下 : 

step = tf.group(population.assign(new population) ) 
12. 初 始 化 模型 变量 ， 代 码 如 下 : 


init = tf.initialize all variables() 
sess.run(init) 


13 TAHIR, BOEN S RBMERISERPABEE, SEXTRMVBUPRBE, TURBRIT I: 


for i in range (generations): 
# Create cross-over matrices for plugging in. 


crossover mat = np.ones(shape=[num children, features] ) 
crossover point = np.random.choice(np.arange(1, features-1, 
step=1), num children) 


for pop ix in range (num children): 
crossover mat[pop ix,0:crossover point [pop ix]]-0. 
# Generate mutation probability matrices 


mutation prob mat = np.random.uniform(size=[num children, 
features]) 


mutation values = np.random.normal(í(size-[num children, 
features]) 


mutation values[mutation prob mat »- mutation] = 0 


# Run GA step 

feed dict - (truth ph: truth.reshape([1, features]), 
crossover mat ph: crossover mat, 
mutation val ph: mutation values] 

step.run(feed dict, session=sess) 


best individual val = sess.run(best individual, feed 
dict=feed dict) 


lI d $ 5 se 0: 
best fit = sess.run(best val, feed dict = feed dict) 


print ('Generation: {}, Best Fitness (lowest MSE): {:.2}'. 
format (i, -best fit)) 


14. 输 出 结果 如 下 : 


Generation: 0, Best Fitness (lowest MSE): 1.5 
Generation: 5, Best Fitness (lowest MSE): 0.83 
Generation: 10, Best Fitness (lowest MSE): 0.55 
Generation: 185, Best Fitness (lowest MSE): 0.085 
Generation: 190, Best Fitness (lowest MSE): 0.15 
Generation: 195, Best Fitness (lowest MSE): 0.083 


11.4.3 ”工作 原理 


本 节 展 示 了 如 何 使 用 TensorFlowilll 练 简单 的 遗传 算法 。 为 了 验证 实现 的 遗传 算法 是 否 工 作 ， 我 们 绘制 每 次 迭代 的 适应 度 最 高 的 个 
体 和 ground truth 趋 势 图 ， 如 图 11-4 所 示 。 
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图 11-4 和 迭代 200 次 的 适应 度 最 高 的 个 体 和 ground ttuth 的 趋势 图 。 我 们 发 现 适 应 度 最 高 的 个 体 和 ground truth 相当 接近 


11.4.4 ERZ 


遗传 算法 有 许多 个 变种 ， 可 以 有 两 个 父 种 群 和 两 个 不 同 的 适应 度 标准 〈 例 如 ， 最 低 MSE 和 平滑 度 ) 。 我 们 能 强制 变异 值 不 大 于 1 
或 者 不 小 于 -1。 本 例 做 了 许多 不 同 的 调整 ， 这 些 调 整 依赖 于 实际 要 优化 的 问题 。 对 于 本 例 来 说 ， 适 应 度 计算 相当 简单 ， 但 是 对 于 大 部 
分 遗传 算法 ， 计 算 适应 度 是 一 项 艰巨 的 任务 。 例 如 ， 如 果 我 们 想 用 遗传 算法 优化 卷 积 神经 网 络 染 构 ， 那 么 群体 个 体 就 有 一 个 参数 数 
组 。 参 数 包括 过 滤器 大 小 、 步 长 ， 以 及 卷 积 层 。 对 于 数据 集 来 说 ， 达 代 固定 次 数 后 ,个 体 的 适应 度 是 分 类 的 准确 度 。 如 果 我 们 在 种 群 
中 有 100 个 个 体 ， 那 么 ， 每 次 迭代 必须 评估 100 个 不 同 的 CNN 模 型 。 这 是 非常 大 强度 的 计算 。 


在 使 用 遗传 算法 解决 你 的 问题 之 前 ， 需 要 考虑 下 多 入 才能 计算 完 个 体 的 适应 度 。 如 果 访 操作 很 耗 时 ， 则 不 适合 使 用 遗传 算法 。 


11.5 TensorFlow 实 现 K-means 算 法 


TensorFlow 也 可 以 用 来 实现 迭代 聚 类 算法 ， 比 如 ，k-means 算 法 。 本 节 将 展示 在 iris 数 据 集中 使 用 k-means 算法 的 例子 。 


11.5.1 开始 


本 书 介 绍 的 大 部 分 机 器 学 习 算 法 模型 都 是 有 监督 模型 ，TensorFlow 是 解决 该 类 问题 的 理想 工具 。 但 是 TensorFlow 也 可 以 使 用 无 


监督 模型 ， 本 例 将 实现 k-means 聚 类 算法 。 


本 例 使 用 的 数据 是 iris 数 据 集 。 访 数据 集 的 一 大 优点 是 ， 我 们 已 经 知道 其 有 三 类 目标 (FASE) 。 这 让 我 们 明确 将 会 聚 类 成 三 


SIZE 
个 不 同 的 类 。 


我 们 将 iris 数 据 集聚 类 成 三 组 ， 然 后 和 实际 标注 比较 求 出 聚 类 的 准确 度 。 


11.5.2 ”动手 做 


1. 开 始 导入 必要 的 编程 库 。 因 为 后 续 需 将 四 维 的 结果 数据 转换 为 二 维 数据 进行 可 视 化 ， 所 以 也 要 从 sklearn 库 导入 PCA 工 具 ， 代 码 
如 下 : 

import numpy as np 

import matplotlib.pyplot as plt 

import tensorflow as tf 

from sklearn import datasets 

from scipy.spatial import cKDTree 

from sklearn.decomposition import PCA 

from sklearn.preprocessing import scale 


2. 创 建 一 个 计算 图 会 话 ， 加 载 iris 数 据 集 ， 代 码 如 下 : 


sess = tf.Session() 
iris - datasets.load iris() 
num pts - len(iris.data) 


num feats = len(iris.data[0] ) 


、 


3. 设 置 分 类 数 、 迭 代 次 数 ， 创 建 计 算 图 所 需 的 变量 ， 代 码 如 下 : 


k=3 
generations = 25 
data points = tf.Variable(iris.data) 


cluster labels = tf.Variable(tf.zeros([num pts], dtype-tf.int64)) 


4. 声 明 每 个 分 组 所 需 的 几何 中 心 变量 。 我 们 通过 随机 选择 iris 数 据 集中 的 三 个 数据 点 来 初始 化 k-means 聚 类 算法 的 几何 中 心 ， 代 码 
如 下 : 


rand starts = np.array([iris.data[np.random.choice(len(iris. 
data))] for | in range(k)l) 


centroids - tf.Variable(rand starts) 


5 计算 每 个 数据 点 到 每 个 几何 中 心 的 距离 。 本 例 的 计算 方法 是 ， 将 几何 中 心 点 和 数据 点 分 别 放 入 矩阵 中 ， 然 后 计算 两 个 矩阵 的 欧 
式 距离 ， 代 码 如 下 : 


centroid matrix = tf.reshape(tf.tile(centroids, [num pts, 11), 
[num pts, k, num feats]) 


point matrix - tf.reshape(tf.tile(data points, [1, k]), [num pts, 
k, num feats]) 

distances - tf.reduce sum(tf.square(point matrix - centroid 
matrix), reduction indices-2) 
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centroid group = tf.argmin(distances, 1) 
7. 计 算 每 组 分 类 的 平均 距离 得 到 新 的 几何 中 心 点 ， 代 码 如 下 : 

def data group avg(group ids, data): 


# Sum each group 


sum total - tf.unsorted segment sum(data, group ids, 3) 

# Count each group 

num total - tf.unsorted segment sum(tf.ones like(data), group 
ids, 3) 


# Calculate average 
avg by group = sum total/num total 
return(avg by group) 

means = data group avg(centroid group, data points) 

update = tf.group(centroids.assign(means), cluster labels. 


assign(centroid group) ) 

8. 初 始 化 模型 变量 ， 代 码 如 下 : 
init = tf.initialize all variables() 
sess.run(init) 

9. 遍 历 迭 代 训 练 ， 相 应 地 更 新 每 组 分 类 的 几何 中 心 点 ， 代 码 如 下 ; 


for i in range (generations): 


print('Calculating gen {}, out of {}.!'.format(i, generations) ) 
_, centroid group count = sess.run([update, centroid group] ) 
group count = [] 


for ix in range(k): 
group count.append(np.sum(centroid group count--ix)) 
print('Group counts: {}'.format (group count)) 


10. 输 出 结果 如 下 : 


Calculating gen 0, out of 25. 
Group counts: [50, 28, 72] 
Calculating gen 1, out of 25. 
Group counts: [50, 35, 65] 
Calculating gen 23, out of 25. 
Group counts: [50, 38, 62] 
Calculating gen 24, out of 25. 
Group counts: [50, 38, 62] 


11. 为 了 验证 聚 类 模型 ,我们 使 用 距离 模型 预测 。 看 下 有 多 少数 据点 与 实际 iris 数 据 集中 的 芒 尾 花 物 种 匹配 ， 代 码 如 下 : 


[centers, assignments] = sess.run([centroids, cluster labels]) 
def most common (my list): 
return (max (set (my list), key=my list.count)) 
label0 = most common (list (assignments [0:50] ) ) 
labell = most common(list(assignments[50:100])) 
label2 = most common(list(assignments[100:150])) 
groupO count = np.sum(assignments [0:50] ==label0O) 
groupl count = np.sum(assignments [50:100] ==labell1) 
group2 count np.sum(assignments [100:150] ==label2) 
accuracy = (group0 count + groupl count + group2 count) /150. 
print ('Accuracy: {:.2}'.format (accuracy) ) 


12. 输 出 结果 如 下 : 


Accuracy: 0.89 
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组 。PCA 分 解 之 后 ， 我 们 创建 预测 ， 并 在 x-y 轴 网 格 绘制 彩色 图 形 ， 代 码 如 下 : 


pca model = PCA(n components-2) 

reduced data - pca model.fit transform(iris.data) 
# Transform centers 

reduced centers - pca model.transform(centers) 

# Step size of mesh for plotting 


h 2.02 

x min, x max = reduced data[:, 0].min() - 1, reduced datal:, 
0] .max() + 1 

y min, y max - reduced data[:, 1].min() - 1, reduced datal:, 
1].max() + 1 


XX, yy = np.meshgrid(np.arange(x min, x max, h), np.arange(y min, 
y max, h)) 
4 Get k-means classifications for the grid points 


xx pt - list(xx.ravel()) 

yy pt = list(yy.ravel ()) 

xy pts = np.array([[x,y] for x,y in zip(xx pt, yy pt)]) 
mytree = cKDTree (reduced centers) 


dist, indexes = mytree.query(xy pts) 
indexes = indexes.reshape (xx.shape) 


14. 下 面 是 用 matplotlib 模 块 在 同一 幅 图 形 中 绘制 所 有 结果 的 代码 。 绘 图 部 分 的 代码 来 自 sklearn 官 方 文档 的 示例 (http://scikit- 
learn.org/stable/auto examples/cluster/plot kmeans digits.html) ,代码 如 下 (对 应 的 图 见 图 11-5) : 


DLE.Lfi) 

plt.imshow(indexes, interpolation-'nearest', 
extent-(xx.min(), xx.max(), yy.min(), yy.max()), 
cmap-plt.cm.Paired, 
aspect-'auto', origin-'lower') 

# Plot each of the true iris data groups 

symbols = ['o', '^', 'D'] 

label name = ['Setosa', 'Versicolour', 'Virginica'] 

for i in range(23): 

temp group = reduced data[(i*50):(50)*(1i-s1)] 


plt.plot(temp group[:, 0], temp group[:, 1], symbols[il, 
markersize-10, label-label name[il) 


4 Plot the centroids as a white X 

plt.scatter(reduced centers[:, 0], reduced centers[:, 1], 
marker='x', s=169, linewidths=3, 
color='w', zorder=10) 

plt.title('K-means clustering on Iris Dataset)\n' 

'Centroids are marked with white cross') 

plt.xlim(x min, x max) 

plt.ylim(y min, y max) 

plt.legend(loc='lower right') 

plt.show() 


K-means clustenng on Ins Dataset 
Centroids are marked with white cross 


A A Versicolour 
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类 k-means 分 组 为 图 中 三 种 阴影 区 域 ， 三 种 不 同 的 数据 
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Z&TofsgTensorFlow&iriszidgSEEE2573g—2H. AR ESRSERURAZJAABJE AEG (8996) ， 绘 制 k-means 分 组 的 图 形 。 因 为 k- 
means 算 法 作为 分 类 算法 的 一 种 ， 其 为 局 部 线性 ， 所 以 很 难 学 习 到 杂 色 萤 尾 花 (|.versicolour) 和 维 吉 尼 亚 芒 尾 花 (l.verginica) 之 
间 的 非 线 性 边界 。 但 是 k-means 算法 的 优点 是 无 须 标注 数据 集 。 
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TensorFlow 可 以 实现 许多 算法 ， 其 一 个 很 好 的 例子 是 实现 单 微分 方程 (ODE) 的 求解 器 。 求 解 一 个 党 微分 方程 数值 解 是 一 个 很 容 
吻 用 计算 图 表达 的 迭代 过 程 。 本 蔬 将 求解 洛 特 卡 - 沃 尔 泰 拉 方 程 (Lotka-Volterra) 扔 食 者 - 猫 物 系 统 。 


本 节 将 介绍 如 何 求解 党 微分 方程 系统 。 我 们 可 以 使 用 前 面 两 节 的 方法 来 更 新 碗 代数 值 ， 求 解 党 微分 方程 系统 。 


本 例 考虑 的 著名 常 微分 方程 系统 是 洛 特 卡 - 沃 尔 泰 拉 万 程 (Lotka-Volterra) 擦 食 者 -猎物 系统 。 其 经 常用 来 描述 生物 系统 中 ， 拯 
食 者 与 猎物 进行 互动 时 的 动态 模型 。 


1920 年 ， 洛 特 卡 - 沃 尔 泰 拉 系 统 发 布 在 一 篇 文章 中 ， 见 11.6.4 节 。 我 们 使 用 文章 中 相似 的 参数 来 描述 周期 性 系统 ， 其 离散 数学 表达 
式 为 : 


Lan 22x. 
f(x) =sin 50 


X =X,+(ax, + bX Y,) At 
X= 4%, tlel Y - aX Y.) At 


Bo, XE, Yemeea. ihe c 和 d 的 值 来 决定 哪个 是 猎物 ， 哪 个 是 掠 食 者 。 对 于 猎物 ，a>0，b<0; YRA 
者 ，c<0，d>0。 我 们 使 用 TensorFlow 实 现 其 离散 版 的 求解 器 。 


11.6.2 动手 做 


1. 导 入 必要 的 编程 库 ， 创 建 一 个 计算 图 会 话 ， 代 码 如 下 


import matplotlib.pyplot as plt 
import tensorflow as tf 
sess - tf.Session() 


2. 声 明 计算 图 中 的 常量 和 变量 ， 代 码 如 下 : 


x initial = tf.constant (1.0) 
y initial = tf.constant (1.0) 
X tl = tf.Variable(x initial) 


Y tl = tf.Variable(y initial) 
# Make the placeholders 
t delta = tf.placeholder(tf.float32, shape-()) 


a - tf.placeholder(tf.float32, shape-()) 
b - tf.placeholder(tf.float32, shape-()) 
c = tf.placeholder(tf.float32, shape-()) 
d = tf.placeholder(tf.float32, shape-()) 


3. 实 现 前 面 介 绍 的 离散 系统 ， 然 后 更 新 X 和 Y 的 数量 ， 代 码 如 下 : 


X t2 = X t1 + (a * Xt1«b* X t1 * Y t1) * t delta 
Y t2 = Y t1 + (C* Ytl «d * X t1 * Y t1) * t delta 
# Update to New Population 
step - tf.group( 

X tl.assign(X t2), 

Y tl.assign(Y t2)) 


4. 初 始 化 计算 图 ， 运 行 离 散 常 微分 方程 系统 展示 周期 性 的 行为 ， 代 码 如 下 : 


init = tf.initialize all variables () 
sess.run(init) 
4 Run the ODE 
prey values = [] 
predator values = [|] 
for i in range(1000): 
# Step simulation (using constants for a known cyclic 
solution) 
step.run({a: (2./3.), b: (-4./3.), c: -1.0, d: 1.0, t delta: 
0.01}, session=sess) 
# Store each outcome 
temp prey, temp pred = sess.run([X t1, Y t1]) 
prey values.append(temp prey) 
predator values.append(temp pred) 


闪 一 获得 洛 特 卡 - 沃 尔 泰 拉 方程 的 稳定 求解 与 指定 参数 和 起 始 值 有 较 大 关系 。 我 们 鼓励 读者 尝试 不 同 的 参数 和 初始 值 来 看 会 发 生 


5 现在 绘制 掠 食 者 与 猎物 的 值 ( 见 图 11-6) ， 代 码 如 下 : 


plt.plot (prey values, label="Prey") 
plt.plot (predator values, label="Predator") 
plt.legend(loc='upper right') 

plt.show() 


11.6.3 ”工作 原理 
使 用 TensorFlow 实 现 弟 微分 方程 系统 的 离散 版 的 求解 器 。 对 于 指定 参数 ， 我 们 看 到 拯 食 者 与 猎物 的 生态 系统 确实 是 周期 性 变化 


的 。 这 在 生物 生态 系统 中 是 有 意义 的 ， 因 为 如 果 有 太 多 的 扰 食 者 ， 猫 物 残 会 濒临 火 绝 ; 缺少 猎物 ， 振 食 者 只 能 获得 更 少 的 食物 ， 那 掀 
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A116 ” ODE 求解 的 掠 食 者 与 猎物 的 数量 值 的 趋势 图 。 我 们 看 到 趋势 确实 呈 周 期 性 变化 
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